长句读音含糊，短句清晰

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 705 forks source link

用 CJE 模型和 400 段中文短音频进行 1000 次训练后，短句听起来蛮清晰的了，但长句发音依然很含糊。

例如，在样例.zip 文件中，短句「这是一款入门很难，精通更难的游戏，但精通之后可以花式虐电脑。」的生成语音时长为 6 秒，相对清晰。但当将两个相同的短句重复形成长句时，生成的语音时长仅为 9 秒，发音特别含糊。

我打算继续训练至 5000 次，观察长句的发音清晰度是否会有所改善。大家有没有其他的建议能改善长句的发音问题？

Plachtaa / VITS-fast-fine-tuning