拟合的最后一个音很短

liulfy commented 1 year ago

如题，自己微调的模型，整体效果挺不错的，但是最后一个音会被吞掉一半，发音很短。请问可能怎么解决呢？ add_blank配置的是false，这个可能会有影响吗？

AnyaCoder commented 1 year ago

没改之前不是true吗，我没改，发音还是完整的

liulfy commented 10 months ago

没改之前不是true吗，我没改，发音还是完整的

我后来间歇性尝试，但还是不太行，有时候最后一个字就直接没有了。。

VincentVanNF commented 10 months ago

没改之前不是true吗，我没改，发音还是完整的

我后来间歇性尝试，但还是不太行，有时候最后一个字就直接没有了。。

请问解决了吗，我也遇到了这个问题

ulin0729 commented 7 months ago

我原先也遇到這個問題，後來發現是 Whisper 自動切割長音檔時，切割的點有誤差，導致實際拿去微調的資料都是尾音被切掉的資料，自然就得到尾音被切掉的結果。最後是 hard code 強制把切割點往後移大概0.3秒，現在的結果都是正確的了，給各位遇到這問題的人參考，可以先檢查一下最後送進去微調的訓練資料品質如何。

我的解決方案：

將 scripts/long_audio_transcribe.py 中這行

wav_seg = wav[:, int(start_time*sr):int(end_time*sr)]

改為

wav_seg = wav[:, int((start_time + 0.3)*sr):int((end_time + 0.3)*sr)]

Plachtaa / VITS-fast-fine-tuning

拟合的最后一个音很短 #448