TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
2.97k stars 369 forks source link

音频中间没有声音的时候,嘴部还一直在动 #32

Open Gona9z opened 7 months ago

Gona9z commented 7 months ago

提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问可以怎么优化吗?

vincentWuK commented 7 months ago

same

wuyigq commented 7 months ago

same problem

Gona9z commented 7 months ago

@itechmusic 请问可以升级处理下吗?

itechmusic commented 7 months ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法:

  1. 推理时将没有声音的片段替换成闭嘴的音频,如通过音量识别。但目前还没找到合适的闭嘴音频
  2. 训练时加入相关数据,没有声音时闭嘴

如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。

qich1234 commented 6 months ago

希望作者尽快突破,感觉效果会好很多

jinqinn commented 6 months ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法:

  1. 推理时将没有声音的片段替换成闭嘴的音频,如通过音量识别。但目前还没找到合适的闭嘴音频
  2. 训练时加入相关数据,没有声音时闭嘴

如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。

@itechmusic 请问有没有结论呢? 可以手动将静音部分换成闭嘴的片段,现在的问题是如何生成比较好的闭嘴片段呢,将bbox_shift调整到最低值可以做到吗?

jinqinn commented 6 months ago

希望作者尽快突破,感觉效果会好很多

可以突破,但不能效果太好,不然就出不来了。

qich1234 commented 6 months ago

希望作者尽快突破,感觉效果会好很多

可以突破,但不能效果太好,不然就出不来了。

这个明白,正为此事发愁,希望尽快推出。感觉贵组织的模型是目前最好的,会一直关注。

jinqinn commented 6 months ago

@itechmusic 好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频

qich1234 commented 5 months ago

好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频

Andersyang07 commented 4 months ago

每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。

liyuli1997 commented 4 months ago

有解决办法了吗

toto0668 commented 3 months ago

同问,中间不说话怎么让嘴巴不动

hyj2016 commented 3 months ago

提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问可以怎么优化吗?

czk32611 commented 3 months ago

我们正在优化这个问题,是需要训练来解决的

hyj2016 commented 3 months ago

提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问大概什么时候能训练出模型?

helloworld8686 commented 1 month ago

这个有问题有更新了吗?

gg22mm commented 1 month ago

每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。

每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。

因为有肢体动作,如果用第一帧来填充应该不行~~