PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
https://huggingface.co/spaces/maxmax20160403/vits_chinese
MIT License
1.16k stars 167 forks source link

微调数据的拼音准确度,对效果影响大吗? #152

Closed scriptboy1990 closed 11 months ago

scriptboy1990 commented 11 months ago

前面基于aishell3训练多说话人底模的时候,发现aishell3的数据集在提供的拼音这块非常准确,比如: 我永远都不会忘记和你一起度过的日子 wo3 yong2 yuan3 dou1 bu2 hui4 wang4 ji4 he2 ni3 yi4 qi3 du4 guo4 de5 ri4 zi5 其中“永”“不”“一”第三声调的变声,都是对的。

微调数据由于要自己用工具生成,比如pypinyin,但是我发现这个工具效果很一般,尤其对这种要变调的,还有多音字识别不太准,这种对最终的效果影响大吗。

MaxMax2016 commented 11 months ago

如果目的是学习,没啥影响;如果要商业应用,还是需要精标数据的。

MaxMax2016 commented 11 months ago

也许可以使用chatGPT等语言大模型来做数据标注的拼音

MaxMax2016 commented 11 months ago

阿里自动化标注方案:https://www.modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary

scriptboy1990 commented 11 months ago

阿里自动化标注方案:https://www.modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary

这貌似是个好东西呀,我试试看。 对了,昨天用了下GPT,构造提示词让它去做,几乎搞不了,怎么调整提示词,给的都是未变调的结果。