Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

max_epochs 最大只能是 10000 吗? #509

Open rockbenben opened 9 months ago

rockbenben commented 9 months ago

经过10000次C模型训练后,机器味道仍然有点浓重。

因此,我考虑将训练次数增加到20000,执行了以下命令:python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 20000 --drop_speaker_embed False --cont True。但是,后台只调取了9998次训练的模型,训练到10000就自动停止了。是不是 max_epochs 最大只能 10000?

image image

mikeyang01 commented 9 months ago

你用了多少训练数据?

rockbenben commented 9 months ago

你用了多少训练数据?

400 段中文短音频

mikeyang01 commented 9 months ago

个人经验, bert-vits在机械音方面会好一些

mikeyang01 commented 9 months ago

你用了多少训练数据?

400 段中文短音频 试试长文本, 有没有吐字不清的问题?

rockbenben commented 9 months ago

你用了多少训练数据?

400 段中文短音频 试试长文本, 有没有吐字不清的问题?

长音频机械音会好点,但离实用程度还是有差距,这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量,但看来行不通。另外,语音中 n、l 不分,这可能也是问题的根源。

晚点试试推荐的 bert-vits。

mikeyang01 commented 9 months ago

你用了多少训练数据?

400 段中文短音频 试试长文本, 有没有吐字不清的问题?

长音频机械音会好点,但离实用程度还是有差距,这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量,但看来行不通。另外,语音中 n、l 不分,这可能也是问题的根源。

晚点试试推荐的 bert-vits。

输入长音频也会被剪切成几秒钟短音频去训练的