Best TTS based on BERT and VITS with some Natural Speech Features Of Microsoft

jaywalnut310 / vits

VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

https://jaywalnut310.github.io/vits-demo/index.html

MIT License

6.72k stars 1.23k forks source link

Best TTS based on BERT and VITS with some Natural Speech Features Of Microsoft #130

Open MaxMax2016 opened 1 year ago

MaxMax2016 commented 1 year ago

https://github.com/PlayVoice/vits_chinese has pretrained model for test. good luky!

1500256797 commented 1 year ago

你这个也是基于Vits模型训练出来的吗

MaxMax2016 commented 1 year ago

恩

JohnHerry commented 1 year ago

请问BERT韵律模型的训练语料是哪里来的呢？只靠TTS那点标注文本应该不够吧？

MaxMax2016 commented 1 year ago

TTS那点标注是用来微调模型啊，https://github.com/PlayVoice/vits_chinese/issues/57

JohnHerry commented 1 year ago

就10000句微调在BERT上就能达到很好的韵律效果？能泛化到大量unseen的句子上？我们实践中往往发现很多韵律预测不准，比如#2，#3,请问怎么解决的呢？您的帖子里知乎专栏上的作者，韵律是四级但是韵律编码只有011, 011 011 2 貌似抹平了#2，#3，但是为啥这么编码还是没有交代清楚。理解上不是每个韵律片段【词语】的韵律编码都应该是一样的吗？

MaxMax2016 commented 1 year ago

我也不太理解他那个，但是使用的BERT base+他的线性层；又额外使用了一个线性进行维度转换，嵌入到vits；这维度转换的线性层也能在VITS的训练过程中，学习到和音频对应的韵律表示吧。其实我觉得直接使用BERT base也可以，我也将进行这个实验。

lifeiteng commented 1 year ago

有人对 banded SoftDTW CUDA 版本和可导 Durator 感兴趣吗?

LJ048-0217-20