Open LyWangPX opened 1 year ago
感谢,我抽空会研究一下
也可以参考一下whisper webui https://gitlab.com/aadnk/whisper-webui 它调用silero-vad先对音频进行分块然后喂给whisper,基本上可以完美解决莫名其妙反复重复某句话的bug。对于小语种特别有用,https://github.com/openai/whisper/discussions/397 这里讨论的例子也是日语。
whisperX 的 colab 使用 似乎必定會牽扯到要重啟環境
! pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 torchtext==0.15.1 --index-url https://download.pytorch.org/whl/cu118
! pip install git+https://github.com/m-bain/whisperx.git
因為環境涉及到重新安裝pytorch的樣子
我做过相关AI字幕的工作,不方便上传代码,但有几个方向值得借鉴:
最后时间轴的结果里无需人为修正的准确结果可以达到80%+