Huanshere / VideoLingo

Netflix-level subtitle cutting, translation, alignment, and even dubbing - one-click fully automated AI video subtitle team | Netflix级字幕切割、翻译、对齐、甚至加上配音,一键全自动视频搬运AI字幕组
https://docs.videolingo.io
Apache License 2.0
7.01k stars 683 forks source link

加入wav2vec来标定时间轴 #258

Closed assassinliujie closed 1 week ago

assassinliujie commented 1 week ago

whisper的识别经常会出现偏后,比如一个单词发音从张嘴到发出元音再到结束这个过程,基本上之后标注从元音发出到结束这个过程。所以能不能先用wav2vec标定时间轴的开始和结束,再用whisper识别,然后拼接的时候用whisper的时间轴匹配wav2vec的更精确的时间轴,然后把wav2vec的时间轴拼接起来做最后使用的轴