Closed caifangvip closed 1 year ago
计算count_phone的时候,按您的逻辑一个汉子是2,符号为1,sil标记为1
VITS-fast-finetuning不是这个对应规则~~,输入一句中文,然后看看,他输入给模型的phone是什么样的
他没用拼音,用的这种: pinyin('中心', style=Style.BOPOMOFO) # 注音风格 [['ㄓㄨㄥ'], ['ㄒㄧㄣ']]
谢谢作者回答,那我把VITS-fast-finetuning对应规则改成您那样的,然后集成bert是否就可以?
我看您代码里use_sdp是FALSE,也就是说时长预测不是用的随机的,您代码里用的时长预测,效果更好是吗?
谢谢作者回答,那我把VITS-fast-finetuning对应规则改成您那样的,然后集成bert是否就可以?
是
个人感觉随机时长不太稳定
同感,我也有这个感受,认同您的修改。
把文本传给bert时候,必须的加["PAD"] 是吗?是因为你标注加了sil,目的是做对齐吗?
是的
@caifangvip 兄弟,你搞出来了私我一下,可以付费
@caifangvip 做好了么?
为什么要修改VITS-fast-finetuning假如bert,直接用vits_chinese不好吗,这两个有什么效果的区别吗?还是纯粹为了学习;
我发现社区问的问题没有一个回复,这个项目坐着也不关注了吗 @MaxMax2016 @caifangvip
作者好: 我看了您的加入bert相关的代码,想把这部分加入到VITS-fast-finetuning项目里面,2个项目的转音素的逻辑不同。 您用的是字典(不知道说的对不对),VITS-fast-finetuning用的是cleaner函数(好像是音标,不知道说的对不对)。 计算count_phone的时候,按您的逻辑一个汉子是2,符号为1,sil标记为1,这样count_phone的len和音素长度是一直的。 我也按照这个逻辑来计算count_phone,count_phone的len和音素的长度不一致。执行会报错。 报错代码:
请作者给一些技术指导,感谢。