音频中间没有声音的时候，嘴部还一直在动

TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

Other

2.97k stars 369 forks source link

音频中间没有声音的时候，嘴部还一直在动 #32

Open Gona9z opened 7 months ago

Gona9z commented 7 months ago

提供推理的音频，中间和结尾有一段没有声音的，但是嘴巴一直在动，请问可以怎么优化吗？

vincentWuK commented 7 months ago

same

wuyigq commented 7 months ago

same problem

Gona9z commented 7 months ago

@itechmusic 请问可以升级处理下吗？

itechmusic commented 7 months ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究，目前怀疑是训练数据分布导致的：人在说话中间停顿时，嘴巴不会都闭上，而是受到之前口型的影响（如维持之前口型），因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法：

推理时将没有声音的片段替换成闭嘴的音频，如通过音量识别。但目前还没找到合适的闭嘴音频
训练时加入相关数据，没有声音时闭嘴

如果有结论，我们会更新出来。如果大家有解决思路，也欢迎提出讨论。

qich1234 commented 6 months ago

希望作者尽快突破，感觉效果会好很多

jinqinn commented 6 months ago

感觉各位对MuseTalk的兴趣。这个问题我们正在研究，目前怀疑是训练数据分布导致的：人在说话中间停顿时，嘴巴不会都闭上，而是受到之前口型的影响（如维持之前口型），因此目前模型没有学会在无声音时闭嘴。

我们正在尝试两种解决方法：

推理时将没有声音的片段替换成闭嘴的音频，如通过音量识别。但目前还没找到合适的闭嘴音频

训练时加入相关数据，没有声音时闭嘴

如果有结论，我们会更新出来。如果大家有解决思路，也欢迎提出讨论。

@itechmusic 请问有没有结论呢？可以手动将静音部分换成闭嘴的片段，现在的问题是如何生成比较好的闭嘴片段呢，将bbox_shift调整到最低值可以做到吗？

jinqinn commented 6 months ago