jaywalnut310 / vits

VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
https://jaywalnut310.github.io/vits-demo/index.html
MIT License
6.72k stars 1.23k forks source link

Best TTS based on BERT and VITS with some Natural Speech Features Of Microsoft #130

Open MaxMax2016 opened 1 year ago

MaxMax2016 commented 1 year ago

https://github.com/PlayVoice/vits_chinese has pretrained model for test. good luky!

1500256797 commented 1 year ago

你这个也是基于Vits模型训练出来的吗

MaxMax2016 commented 1 year ago

JohnHerry commented 1 year ago

请问BERT韵律模型的训练语料是哪里来的呢?只靠TTS那点标注文本应该不够吧?

MaxMax2016 commented 1 year ago

TTS那点标注是用来微调模型啊,https://github.com/PlayVoice/vits_chinese/issues/57

JohnHerry commented 1 year ago

就10000句微调在BERT上就能达到很好的韵律效果?能泛化到大量unseen的句子上? 我们实践中往往发现很多韵律预测不准,比如#2,#3,请问怎么解决的呢?您的帖子里知乎专栏上的作者,韵律是四级但是韵律编码只有011, 011 011 2 貌似抹平了#2,#3,但是为啥这么编码还是没有交代清楚。理解上不是每个韵律片段【词语】的韵律编码都应该是一样的吗?

MaxMax2016 commented 1 year ago

我也不太理解他那个,但是使用的BERT base+他的线性层;又额外使用了一个线性进行维度转换,嵌入到vits;这维度转换的线性层也能在VITS的训练过程中,学习到和音频对应的韵律表示吧。其实我觉得直接使用BERT base也可以,我也将进行这个实验。

lifeiteng commented 1 year ago

有人对 banded SoftDTW CUDA 版本和可导 Durator 感兴趣吗?

LJ048-0217-20