Open ZhangJianBeiJing opened 8 months ago
我试了V1和V2, 感觉v2更差,出来的音频声音高高低低的,关键音色实在不像。
sovits虽然也不是100%像,但至少挺稳定的。
GPT-SoVITS的效果很好,尤其是经过小数据集微调后,能够很完美的克隆音色、节奏、包括情感,只是推理的合成音频经常吞字,要想批量使用,还得对合成的音频进行校验,最多的时候我重复了50次都还是没有能得到正确的音频。 OpenVoice V2,使用下来只看来了一个音色的复制转换器tone_color_converter.convert,将参考音频提取出来的音色平均,然后替换掉TTS生成音频的音色,关于情感、节奏、语速方面的精确控制,还没有找到怎么实现。
不知道是不是使用的姿势不对,OpenVoice训练的效果非常差,远远不如GPT-SoVITS。GPT-SoVITS还在持续更新,这个项目感觉已经废弃了。