PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
https://huggingface.co/spaces/maxmax20160403/vits_chinese
MIT License
1.16k stars 167 forks source link

能否增加:角色1、角色2。。。,请问如何修改呢? #35

Open cypinpai opened 1 year ago

cypinpai commented 1 year ago

感谢提供标准的中文模型,网上基本上都是大佐口气!

1、请问vits_bert_model.pth是放在根目录吗?运行出错了。 put prosody_model.pt To ./bert/prosody_model.pt put vits_bert_model.pth To ./vits_bert_model.pth python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth

D:\DATA\Downloads\vits_chinese\vits_chinese-master>python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth nothing of except: 'gbk' codec can't decode byte 0xac in position 20: illegal multibyte sequence

2、能否增加:角色1、角色2。。。,请问如何修改呢?

3、目前的模型是女声,如果我想增加男生训练,是在原有的模型上进行训练吗?

新手,搜索了好多平台没有完善学习资料,折腾了一个多星期,一直搞不懂。期盼大佬回答,谢谢!

MaxMax2016 commented 1 year ago

您要不试试 windows 的linux内核 WSL2,gbk应该是windows里面的中文兼容问题。新增发音人的方法,后面会尝试去做。使用单发音模型去训练新发音人不是一个好办法。

MaxMax2016 commented 1 year ago

我晚上看看这个,您不是第一个遇到这个问题的了,看来用windows的同学还挺多。

MaxMax2016 commented 1 year ago

for the error @cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_infer.py#L50 fo = open("vits_infer_item.txt", "r+") fo = open("vits_infer_item.txt", "r+", encoding='utf-8') use this for windows

cypinpai commented 1 year ago

for the error @cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_infer.py#L50 fo = open("vits_infer_item.txt", "r+") fo = open("vits_infer_item.txt", "r+", encoding='utf-8') use this for windows

老大太棒了!已解决!处理问题这么效率,感谢!

另外,能否回答下以下问题?本人菜鸟一枚,搜索了好多平台没有完善学习资料,折腾了一个多星期,一直搞不懂。期盼大佬回答,谢谢! 1、能否增加:角色1、角色2。。。,请问如何修改呢? 2、目前的模型是女声,如果我想增加男生训练,是在原有的模型上进行训练吗?

cypinpai commented 1 year ago

D:\DATA\Downloads\vits_chinese\vits_chinese-master\vits_chinese-master>python vits_prepare.py -c ./configs/bert_vits.json nothing of except: 'gbk' codec can't decode byte 0xae in position 15: illegal multibyte sequence

cypinpai commented 1 year ago

https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese

请问这里的模型可以替换您的模型吗?我试了出错,但看见训练的次数很多很多

weights/pretrained_SpanPSP_Databaker.pt: https://pan.baidu.com/s/1Cox0ouFCUKJLemysiLZ4vQ 提取码:7ell

bert-base-chinese: https://pan.baidu.com/s/1twX20z1O_xqMVyq_le4E5g 提取码:p12j

./logs/baker/G_745000.pth: 链接:https://pan.baidu.com/s/1qxR1AdQAFrOR1QItofwLGA 提取码:n8cs

cypinpai commented 1 year ago

刚测试推理,大概最多支持500出头中文字数,发音完美,如果标点符号和段落能稍微停顿时间长些就完美了。谢谢大佬的付出!

MaxMax2016 commented 1 year ago

可以针对标点符号修改预测的时长来增加停顿,有空的话我提供一个示例。

刚测试推理,大概最多支持500出头中文字数,发音完美,如果标点符号和段落能稍微停顿时间长些就完美了。谢谢大佬的付出!

cypinpai commented 1 year ago

大佬,这个gbk解决了,又出现了一个gbk,看了几天,还是不知道在哪里修改。

(vits) PS E:\vitscn> python vits_prepare.py -c ./configs/bert_vits.json nothing of except: 'gbk' codec can't decode byte 0xae in position 15: illegal multibyte sequence

MaxMax2016 commented 1 year ago

@cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_prepare.py#L61

cypinpai commented 1 year ago

@MaxMax2016 感谢大佬陪伴,好像提示了格式不匹配,都是按您提供的资源下载没做修改。目前有差异的地方是环境torch版本要求是1.9,而我安装的是2.0 Snipaste_2023-03-20_16-37-08

MaxMax2016 commented 1 year ago

@cypinpai 需要将wav转换为16000采样率,这个是基本操作,所以没有提供代码。