Open liulfy opened 1 year ago
没改之前不是true吗,我没改,发音还是完整的
没改之前不是true吗,我没改,发音还是完整的
我后来间歇性尝试,但还是不太行,有时候最后一个字就直接没有了。。
没改之前不是true吗,我没改,发音还是完整的
我后来间歇性尝试,但还是不太行,有时候最后一个字就直接没有了。。
请问解决了吗,我也遇到了这个问题
我原先也遇到這個問題,後來發現是 Whisper 自動切割長音檔時,切割的點有誤差,導致實際拿去微調的資料都是尾音被切掉的資料,自然就得到尾音被切掉的結果。最後是 hard code 強制把切割點往後移大概0.3秒,現在的結果都是正確的了,給各位遇到這問題的人參考,可以先檢查一下最後送進去微調的訓練資料品質如何。
我的解決方案:
將 scripts/long_audio_transcribe.py 中這行
wav_seg = wav[:, int(start_time*sr):int(end_time*sr)]
改為
wav_seg = wav[:, int((start_time + 0.3)*sr):int((end_time + 0.3)*sr)]
如题,自己微调的模型,整体效果挺不错的,但是最后一个音会被吞掉一半,发音很短。请问可能怎么解决呢? add_blank配置的是false,这个可能会有影响吗?