Open OriX0 opened 2 months ago
是的,我测试过一样的结果, 同样疑惑
有无样例?
模型版本是否一致?
模型版本是否一致?
模型版本是一致的 都是v2版本 步数及参考音频都是一样的
有无样例?
已上传到123网盘,并开通了免登录流量包 可直接下载 https://www.123pan.com/s/501cVv-gLmWA 等待大佬解答
本模型原始样本电噪比较大 所以效果特别明显 其他的模型均有该情况
webui和api的区别主要为两点:
针对这两点我对代码进行了改造测试:
结论: 暂无明显数据支持可以表明两者音质存在差别
webui和api的区别主要为两点:
- webui使用gradio进行音频打包(通过pydub库),api通过soundfile进行打包。
- webui为了防止精度转换问题进行了归一化处理,api无此处理。
针对这两点我对代码进行了改造测试:
- 在获得模型输出的音频数据后,一组归一化,一组不处理,所得到音频数据频谱、波形相同
- 在获得模型输出的音频数据后,一组pydub,一组soundfile,所得到音频数据频谱、波形相同
- 在获得模型输出的音频数据后,一组归一化后pydub输出,一组不处理后soundfile输出,所得到音频数据频谱、波形相同
- 在获得模型输出的音频数据后,一组归一化后由gradio输出,一组不处理后soundfile输出,所得到音频数据频谱、波形相同
结论: 暂无明显数据支持可以表明两者音质存在差别
辛苦大佬测试解答,麻烦问一下大佬测试所用的模型是我提供的吗还是大佬本身的。我的原始样本应该是没有你这边处理的这么好,本身的电噪比较大
辛苦大佬测试解答,麻烦问一下大佬测试所用的模型是我提供的吗还是大佬本身的。我的原始样本应该是没有你这边处理的这么好,本身的电噪比较大
底模用你的参考音频直接推理,理论上来看模型好坏不会导致数据打包出来有差异吧
辛苦大佬测试解答,麻烦问一下大佬测试所用的模型是我提供的吗还是大佬本身的。我的原始样本应该是没有你这边处理的这么好,本身的电噪比较大
底模用你的参考音频直接推理,理论上来看模型好坏不会导致数据打包出来有差异吧
关于你说的,我进行了测试,测试结果确实如你所说在默认底膜去推理出来的基本没有差异。在我这边的测试下模型确实产生了数据下的差异
辛苦大佬测试解答,麻烦问一下大佬测试所用的模型是我提供的吗还是大佬本身的。我的原始样本应该是没有你这边处理的这么好,本身的电噪比较大
底模用你的参考音频直接推理,理论上来看模型好坏不会导致数据打包出来有差异吧
我测试的差异是api和web在所有模型和参数一样的情况下,同样的文案出来的音频返回的正确率是web更稳定一些, 训练了几个模型, 都存在相同的问题,某些易错的的文字 , 同样的文字20次web 能有15次推理正确,api 5次正常, 而且是普遍性的
辛苦大佬测试解答,麻烦问一下大佬测试所用的模型是我提供的吗还是大佬本身的。我的原始样本应该是没有你这边处理的这么好,本身的电噪比较大
底模用你的参考音频直接推理,理论上来看模型好坏不会导致数据打包出来有差异吧
我测试的差异是api和web在所有模型和参数一样的情况下,同样的文案出来的音频返回的正确率是web更稳定一些, 训练了几个模型, 都存在相同的问题,某些易错的的文字 , 同样的文字20次web 能有15次推理正确,api 5次正常, 而且是普遍性的
这个我也碰到了,同样的参考,api推理吞字的概率大
这个我也碰到了,同样的参考,api推理吞字的概率大
用你提供的模型测试了,同样测试方法下出来的音频文件是一致的。 吞字的问题,webui的topk默认15,api的topk默认10
这个我也碰到了,同样的参考,api推理吞字的概率大
用你提供的模型测试了,同样测试方法下出来的音频文件是一致的。 吞字的问题,webui的topk默认15,api的topk默认10
这个参数我做了修改,并不是默认值 方便提供一份您那边生成出来的音频吗?对了,api端我是通过本地接口请求,而非web页面输入url
我也是同样的问题,api 效果没有 web 好,同样的模型
直接在GPT_SoVITS/inference_webui.py的基础上修改为api.api 效果好很多 ,不知道两边具体哪里出入这么明显
api.py可以设置模型,有特定的endpoint,建议在同模型同参考下对比
直接在GPT_SoVITS/inference_webui.py的基础上修改为api.api 效果好很多 ,不知道两边具体哪里出入这么明显
我页直接重写了api,效果就跟webui一样
直接在GPT_SoVITS/inference_webui.py的基础上修改为api.api 效果好很多 ,不知道两边具体哪里出入这么明显
我页直接重写了api,效果就跟webui一样
找到原因了吗?
直接在GPT_SoVITS/inference_webui.py的基础上修改为api.api 效果好很多 ,不知道两边具体哪里出入这么明显
我页直接重写了api,效果就跟webui一样
找到原因了吗?
没找到原因,重写解决
新更新的是定位到修复了这个问题吗?
新更新的是定位到修复了这个问题吗?
针对其他问题的更新,顺便加了一个高动态范围的选项(在webui里并无这个功能)。这个”问题“在这个issues里并没有找到”问题“,建议更新后测试
生成mel的时候是32k的采样率, 生成音色的时候是16k, 跟这个有没有关系。