TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
1.85k stars 223 forks source link

音频中间没有声音的时候,嘴部还一直在动 #32

Open Gona9z opened 2 months ago

Gona9z commented 2 months ago

提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问可以怎么优化吗?

vincentWuK commented 2 months ago

same

wuyigq commented 2 months ago

same problem

Gona9z commented 2 months ago

@itechmusic 请问可以升级处理下吗?

itechmusic commented 2 months ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法:

  1. 推理时将没有声音的片段替换成闭嘴的音频,如通过音量识别。但目前还没找到合适的闭嘴音频
  2. 训练时加入相关数据,没有声音时闭嘴

如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。

qich1234 commented 1 month ago

希望作者尽快突破,感觉效果会好很多

jinqinn commented 1 month ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法:

  1. 推理时将没有声音的片段替换成闭嘴的音频,如通过音量识别。但目前还没找到合适的闭嘴音频
  2. 训练时加入相关数据,没有声音时闭嘴

如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。

@itechmusic 请问有没有结论呢? 可以手动将静音部分换成闭嘴的片段,现在的问题是如何生成比较好的闭嘴片段呢,将bbox_shift调整到最低值可以做到吗?

jinqinn commented 1 month ago

希望作者尽快突破,感觉效果会好很多

可以突破,但不能效果太好,不然就出不来了。

qich1234 commented 1 month ago

希望作者尽快突破,感觉效果会好很多

可以突破,但不能效果太好,不然就出不来了。

这个明白,正为此事发愁,希望尽快推出。感觉贵组织的模型是目前最好的,会一直关注。

jinqinn commented 1 month ago

@itechmusic 好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频

qich1234 commented 1 week ago

好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频