TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
1.84k stars 219 forks source link

你好,视频配音中存在多个人物 是怎么做到不同的人说不同的音频呢? #129

Open wangwenjie1314 opened 2 weeks ago

wangwenjie1314 commented 2 weeks ago

如下图Readme.md截图所示:

难道是,对视频不同的人说话时分别截取成A\B\C\D等mp4,然后分别使用MuseTalk 改口型,这样也太麻烦了啊。

image

image

aidenyzhang commented 1 week ago

这个应该属于另一个研究领域了。 可以考虑从音频识别的角度把视频分段。 但是影视剧场景中,经常会出现A说话但是画面中的人却是B,这种场景似乎很难自动识别。