PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
https://huggingface.co/spaces/maxmax20160403/vits_chinese
MIT License
1.14k stars 168 forks source link

训练数据000001-010000.txt? #126

Closed juntaosun closed 11 months ago

juntaosun commented 11 months ago

请问,000001-010000.txt 是用什么脚本生成的,在哪里可以找到呢?

000001 卡尔普#2陪外孙#1玩滑梯#4。 ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1

停顿符号和拼音标,怎么做的?

MaxMax2016 commented 11 months ago

是下载的 https://aistudio.baidu.com/datasetdetail/36741 需要把000001-010000.txt里面的这几行删掉

002365  这图#2难不成#2是#1P过的#4?
    zhe4 tu2 nan2 bu4 cheng2 shi4 P IY1 guo4 de5
juntaosun commented 11 months ago

我想用自己的wav声音进行训练,是不是切分后,只要生成 filelists/all.txt 中的格式,就可以训练了。

我看all.txt它的格式是这样的: wav路径 | npy路径 | sil 拼音 sil

看了代码,它是运行 vits_prepare_4_custom_speaker.py 后得到的。

MaxMax2016 commented 11 months ago

标注格式是这样

音频相对路径|说话人ID(单人就是0)|中文文本

处理后,生成 filelists/all.txt 中的格式

juntaosun commented 11 months ago

我将采样率调整到了44100不行,还原到16000了。有没有基于底模的训练(G_0.pth和D_0.pth),我注意到github上有的项目只需10分钟就能训练完成,是底模的优势吗?当前项目如何实现那样的快速训练呢~

MaxMax2016 commented 11 months ago

可以尝试使用bert_vits2,他们采用类似方案,且提供了预训练模型

gdtiti commented 11 months ago

请问下如果我想训练自己的底模 有什么建议吗? 如果是多人的话 是不是要训练多个底膜 可以混合训练不同的人的语音吗?如果可以 每个人多少句话比较好?

MaxMax2016 commented 11 months ago

请问下如果我想训练自己的底模 有什么建议吗? 如果是多人的话 是不是要训练多个底膜 可以混合训练不同的人的语音吗?如果可以 每个人多少句话比较好?

可以研究官方vits训练的多人模型,vctk数据训练的英语多人模型。一个模型包含多个发音人。

xiaoyin199 commented 10 months ago

可以尝试使用bert_vits2,他们采用类似方案,且提供了预训练模型

vits_chinese 不算提供了 预训练模型吗?