max_epochs 最大只能是 10000 吗？

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 703 forks source link

max_epochs 最大只能是 10000 吗？ #509

Open rockbenben opened 9 months ago

rockbenben commented 9 months ago

经过10000次C模型训练后，机器味道仍然有点浓重。

因此，我考虑将训练次数增加到20000，执行了以下命令：python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 20000 --drop_speaker_embed False --cont True。但是，后台只调取了9998次训练的模型，训练到10000就自动停止了。是不是 max_epochs 最大只能 10000？

mikeyang01 commented 9 months ago

你用了多少训练数据?

rockbenben commented 9 months ago

你用了多少训练数据?

400 段中文短音频

mikeyang01 commented 9 months ago

个人经验, bert-vits在机械音方面会好一些

mikeyang01 commented 9 months ago

你用了多少训练数据?

400 段中文短音频试试长文本, 有没有吐字不清的问题?

rockbenben commented 9 months ago

你用了多少训练数据?

400 段中文短音频试试长文本, 有没有吐字不清的问题?

长音频机械音会好点，但离实用程度还是有差距，这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量，但看来行不通。另外，语音中 n、l 不分，这可能也是问题的根源。

晚点试试推荐的 bert-vits。

mikeyang01 commented 9 months ago

你用了多少训练数据?

400 段中文短音频试试长文本, 有没有吐字不清的问题?

长音频机械音会好点，但离实用程度还是有差距，这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量，但看来行不通。另外，语音中 n、l 不分，这可能也是问题的根源。

晚点试试推荐的 bert-vits。

输入长音频也会被剪切成几秒钟短音频去训练的