Open MaxMax2016 opened 1 year ago
你这个也是基于Vits模型训练出来的吗
恩
请问BERT韵律模型的训练语料是哪里来的呢?只靠TTS那点标注文本应该不够吧?
TTS那点标注是用来微调模型啊,https://github.com/PlayVoice/vits_chinese/issues/57
就10000句微调在BERT上就能达到很好的韵律效果?能泛化到大量unseen的句子上? 我们实践中往往发现很多韵律预测不准,比如#2,#3,请问怎么解决的呢?您的帖子里知乎专栏上的作者,韵律是四级但是韵律编码只有011, 011 011 2 貌似抹平了#2,#3,但是为啥这么编码还是没有交代清楚。理解上不是每个韵律片段【词语】的韵律编码都应该是一样的吗?
我也不太理解他那个,但是使用的BERT base+他的线性层;又额外使用了一个线性进行维度转换,嵌入到vits;这维度转换的线性层也能在VITS的训练过程中,学习到和音频对应的韵律表示吧。其实我觉得直接使用BERT base也可以,我也将进行这个实验。
有人对 banded SoftDTW CUDA 版本和可导 Durator 感兴趣吗?
https://github.com/PlayVoice/vits_chinese has pretrained model for test. good luky!