Ayanaminn / N46Whisper

Whisper based Japanese subtitle generator
MIT License
1.56k stars 128 forks source link

MP4视频有比较严重的时间轴对不上的问题 #34

Open rainmiku opened 1 year ago

rainmiku commented 1 year ago

尝试跑了一个1h+的mp4视频(),时间轴基本上是乱的。一开始就提前了3s左右,我把所有轴都往后了3s以后,大概30s后时间轴又逐渐慢了若干秒

Ayanaminn commented 1 year ago

Whisper转录时会依靠一定程度的上下文。这个视频开头就是是鼓掌和欢声,而且内容是收音一般的外景,又比较长(我拉了下进度条看中间还有唱歌部分),所以跑出来效果可能不会很好。

rainmiku commented 1 year ago

嗯, 我试着用了一下 https://gitlab.com/aadnk/whisper-webui 跑了一下,它会对原有视频根据音频分段然后喂给whipsper,效果好了很多。我打算研究一下细节,如果出结果了分享给你

echoIIImk2 commented 1 year ago

whisper的时间轴真是挺随缘的,如果不出问题,有可能一集整个都没问题,除了个别句子需要微调,几乎可以直接拿来用。如果出问题,则各种奇怪的问题。用了whisper-webui里的silero-vad之后,有时候效果还不如不用。这里说的是英语,如果是小语种,则基本上都是用了silero-vad的结果更好。 所以我现在都是先直接跑一遍,如果没问题,皆大欢喜。如果有问题,再用silero-vad跑一遍。 whisper的字幕文本真是天下无敌,对比一下剪映。只可惜时间轴的缺陷还是蛮经常发生,看起来OpenAI也不像是打算继续改进的样子。需要一个第三方的工具对其进行校正,目前还没看到特别有效的办法。

Ayanaminn commented 1 year ago

现在可以选择使用在silero-vad基础上的vad-filter了,欢迎测试