Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 705 forks source link

拟合的最后一个音很短 #448

Open liulfy opened 1 year ago

liulfy commented 1 year ago

如题,自己微调的模型,整体效果挺不错的,但是最后一个音会被吞掉一半,发音很短。请问可能怎么解决呢? add_blank配置的是false,这个可能会有影响吗?

AnyaCoder commented 1 year ago

image 没改之前不是true吗,我没改,发音还是完整的

liulfy commented 10 months ago

image 没改之前不是true吗,我没改,发音还是完整的

我后来间歇性尝试,但还是不太行,有时候最后一个字就直接没有了。。

VincentVanNF commented 10 months ago

image 没改之前不是true吗,我没改,发音还是完整的

我后来间歇性尝试,但还是不太行,有时候最后一个字就直接没有了。。

请问解决了吗,我也遇到了这个问题

ulin0729 commented 7 months ago

我原先也遇到這個問題,後來發現是 Whisper 自動切割長音檔時,切割的點有誤差,導致實際拿去微調的資料都是尾音被切掉的資料,自然就得到尾音被切掉的結果。最後是 hard code 強制把切割點往後移大概0.3秒,現在的結果都是正確的了,給各位遇到這問題的人參考,可以先檢查一下最後送進去微調的訓練資料品質如何。

我的解決方案:

將 scripts/long_audio_transcribe.py 中這行

wav_seg = wav[:, int(start_time*sr):int(end_time*sr)]

改為

wav_seg = wav[:, int((start_time + 0.3)*sr):int((end_time + 0.3)*sr)]