训练数据000001-010000.txt？

PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!

MIT License

1.14k stars 168 forks source link

Closed juntaosun closed 11 months ago

juntaosun commented 11 months ago

请问，000001-010000.txt 是用什么脚本生成的，在哪里可以找到呢？

000001 卡尔普#2陪外孙#1玩滑梯#4。 ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1

停顿符号和拼音标，怎么做的？

MaxMax2016 commented 11 months ago

是下载的 https://aistudio.baidu.com/datasetdetail/36741 需要把000001-010000.txt里面的这几行删掉

002365  这图#2难不成#2是#1Ｐ过的#4？
    zhe4 tu2 nan2 bu4 cheng2 shi4 P IY1 guo4 de5

juntaosun commented 11 months ago

我想用自己的wav声音进行训练，是不是切分后，只要生成 filelists/all.txt 中的格式，就可以训练了。

我看all.txt它的格式是这样的： wav路径 | npy路径 | sil 拼音 sil

看了代码，它是运行 vits_prepare_4_custom_speaker.py 后得到的。

MaxMax2016 commented 11 months ago

标注格式是这样

音频相对路径|说话人ID（单人就是0)|中文文本

处理后，生成 filelists/all.txt 中的格式

juntaosun commented 11 months ago

我将采样率调整到了44100不行，还原到16000了。有没有基于底模的训练（G_0.pth和D_0.pth），我注意到github上有的项目只需10分钟就能训练完成，是底模的优势吗？当前项目如何实现那样的快速训练呢~

MaxMax2016 commented 11 months ago

可以尝试使用bert_vits2，他们采用类似方案，且提供了预训练模型

gdtiti commented 11 months ago

请问下如果我想训练自己的底模有什么建议吗？如果是多人的话是不是要训练多个底膜可以混合训练不同的人的语音吗？如果可以每个人多少句话比较好？

MaxMax2016 commented 11 months ago

请问下如果我想训练自己的底模有什么建议吗？如果是多人的话是不是要训练多个底膜可以混合训练不同的人的语音吗？如果可以每个人多少句话比较好？

可以研究官方vits训练的多人模型，vctk数据训练的英语多人模型。一个模型包含多个发音人。

xiaoyin199 commented 10 months ago

可以尝试使用bert_vits2，他们采用类似方案，且提供了预训练模型

vits_chinese 不算提供了预训练模型吗？