RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
MIT License
32.22k stars 3.71k forks source link

一句里面,丢字现象还是很严重,就像抽卡 #1317

Open jasonzhang761213 opened 1 month ago

jasonzhang761213 commented 1 month ago

一句里面,丢字现象还是很严重,就像抽卡 重新抽也没啥,但是就是很难判断哪句有问题

jasonzhang761213 commented 1 month ago

我是个骗子,最新的目标是首富的儿子,他看起来人傻钱多。 事实证明,他的确好骗,甚至每天变着法子给我送钱。

前面的"我是个骗子",就丢了,我是用api处理的

jasonzhang761213 commented 1 month ago

用webui确认,发觉和音频文件有关,就是有些参考音频会导致漏字,换个参考音频就没问题,但晕的是,哪怕是出问题的参考音频,结果大部分也是正常的,没法判断哪个音频效果好

jasonzhang761213 commented 1 month ago

最新测试结果 api,每次重现错误,我用了好几个音频都是这样 webui,只有一次出现错误

jasonzhang761213 commented 1 month ago

我觉得是webui和api的tts_get_wav处理函数不一致,webui因为是每天用,因此比较少问题

ysujiang commented 1 month ago

我觉得是webui和api的tts_get_wav处理函数不一致,webui因为是每天用,因此比较少问题

请问有将api的tts_get_wav改为webui的tts_get_wav吗?效果有没有提升?

qjxkid commented 1 month ago

看了一眼,似乎是同一个函数,但是top_k默认值不同 函数默认参数是20,web会指定成5,api用了默认值的20

lckj2009 commented 1 month ago

是的,比较新的这个版本,丢字确实严重,而且是开头丢字。

ysujiang commented 1 month ago

看了一眼,似乎是同一个函数,但是top_k默认值不同 函数默认参数是20,web会指定成5,api用了默认值的20

改完top_k后效果有提升吗?

Lyzin commented 1 month ago

看了一眼,似乎是同一个函数,但是top_k默认值不同 函数默认参数是20,web会指定成5,api用了默认值的20

改完top_k后效果有提升吗?

我打印了下config里的top_k,默认也是5,但是也有开头吞字的情况,这个有别的解决办法吗?