Open Yuan-ManX opened 1 year ago
正常的中英文TTS模型大约需要多少语音数据的训练,才能得到比较好的效果?
取决于音源和标注的质量
音频质量和标注比较好的情况下
对于这个项目,我用了250+ 10s左右的纯中文音频 加上 10多句英文音频,纯中文练了200epochs,英文加训了100epochs效果还行
我想问一下,越练效果越差,现在连一个日语你好都会变成十几秒的不明句子是正常的吗(现在正在90epoch)
正常的中英文TTS模型大约需要多少语音数据的训练,才能得到比较好的效果?