Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.65k stars 698 forks source link

训练纯日文200轮长音频,但是生成出来的语音末尾戛然而止,不自然 #580

Open DouerGan opened 4 months ago

DouerGan commented 4 months ago

我是把人物的音频录下来全部放到一个10min的wav音频中,不同语句之间有0,5s左右间隔,生成出来的语音末尾戛然而止,不自然,请问有什么建议可以改进吗 例如:知ってますか、桔梗の花言葉は忠実な愛ですよ

https://github.com/Plachtaa/VITS-fast-fine-tuning/assets/108863867/6e18fee7-3500-45c2-ade9-a7c28d7214dd

shirubei commented 4 months ago

估计你这个是让没有再手动切分的,直接10分钟音频丢进去的吧。我训练一个中文的语音,刚刚发现这种情况下也有你说的问题,而且经常语音开头有个短暂的杂音。估计是因为系统自动切分,在上下两个句子中间停顿时间太少(比如,小于0.15s什么的,这个是我大概估计的值)的时候会出现这样的问题。 我的解决办法就是,用 Audacity 这款免费软件手动切分音频,切成2--10s长。然后看看每个音频的头尾是否有上述说的0.15s以上的空白区域,没有的话就在语音文件中找一小段空白的区域拷贝粘贴,凑成0.15s以上。这样就解决了这个问题。 如果觉得手动切分文件太麻烦,那你直接找到系统自动切分的目录(似乎是在 denoised_audio目录下,自己确认吧),然后也是用 Audacity 这个软件逐个打开上述自动切分好的文件,看波形图左右是否有足够的空白区。没有就手动拷贝粘贴。