Open rockbenben opened 9 months ago
你用了多少训练数据?
你用了多少训练数据?
400 段中文短音频
个人经验, bert-vits在机械音方面会好一些
你用了多少训练数据?
400 段中文短音频 试试长文本, 有没有吐字不清的问题?
你用了多少训练数据?
400 段中文短音频 试试长文本, 有没有吐字不清的问题?
长音频机械音会好点,但离实用程度还是有差距,这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量,但看来行不通。另外,语音中 n、l 不分,这可能也是问题的根源。
晚点试试推荐的 bert-vits。
你用了多少训练数据?
400 段中文短音频 试试长文本, 有没有吐字不清的问题?
长音频机械音会好点,但离实用程度还是有差距,这才想转为短音频来提升生成质量。本想通过增加训练次数来尝试提升质量,但看来行不通。另外,语音中 n、l 不分,这可能也是问题的根源。
晚点试试推荐的 bert-vits。
输入长音频也会被剪切成几秒钟短音频去训练的
经过10000次C模型训练后,机器味道仍然有点浓重。
因此,我考虑将训练次数增加到20000,执行了以下命令:
python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 20000 --drop_speaker_embed False --cont True
。但是,后台只调取了9998次训练的模型,训练到10000就自动停止了。是不是 max_epochs 最大只能 10000?