lipku / metahuman-stream

Real time interactive streaming digital human
https://livetalking-doc.readthedocs.io/
Apache License 2.0
3.54k stars 499 forks source link

大佬们,我采用gpt-vits测试的速度比edgetts要慢很多,人物都无法连续说话了 #258

Open ThornbirdZhang opened 1 week ago

ThornbirdZhang commented 1 week ago

各位大佬 我把gpt-vits和metahuman-stream放在同一个rtx 3090的机器上,占用显存20GB左右,还不错。但是gpt-vits的耗时是edgetts的3-4倍,结果一句话说完,人物都要等下一句tts完成才能继续。 我单独测试gpt-vits,nvidia-smi显示10-12%的使用率,3-4GB的显存,速度和同时运行metahuman,速度没有明显差别,应该不是资源冲突。 大家使用gpt-vits定制声音时候,碰到它的速度问题吗?有什么办法可以提升到edgetts的水平吗?或者得换成什么卡?非常感谢。

Proletariat-wh commented 1 week ago

目前没有遇到,响应时长基本在1-2秒以内。是不是gpt-sovits在cpu上运行了?另外是否遇到在用gpt-sovits时,人物说话有一顿一顿的杂音?在gpt-sovits上或者直接接口调用都没有这种情况。

ThornbirdZhang commented 1 week ago

我已经把gpt-sovits放在另一个单卡3090上运行了,但是推理速度还是不快,对于5秒的输出音频,要4-5秒。而推理时,top load才2.5, 而nvidia-smi gpu 10-12%,VRAM占用2.5GB左右。 推理出来的音频时连续。但是因为我的推理速度太慢,前一句已经播完了,后一句还没有跟上,这时候数字人就静默了,说一句停顿一会。有没有好的gpt-vits镜像?

ThornbirdZhang commented 6 days ago

换成gpt-sovits v2的镜像https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official,输出16秒的音频,需要8.49秒,还是很长。edgetts只要3.67秒,有办法提高吗?