Closed assassinliujie closed 1 week ago
whisper的识别经常会出现偏后,比如一个单词发音从张嘴到发出元音再到结束这个过程,基本上之后标注从元音发出到结束这个过程。所以能不能先用wav2vec标定时间轴的开始和结束,再用whisper识别,然后拼接的时候用whisper的时间轴匹配wav2vec的更精确的时间轴,然后把wav2vec的时间轴拼接起来做最后使用的轴
whisper的识别经常会出现偏后,比如一个单词发音从张嘴到发出元音再到结束这个过程,基本上之后标注从元音发出到结束这个过程。所以能不能先用wav2vec标定时间轴的开始和结束,再用whisper识别,然后拼接的时候用whisper的时间轴匹配wav2vec的更精确的时间轴,然后把wav2vec的时间轴拼接起来做最后使用的轴