你好，视频配音中存在多个人物是怎么做到不同的人说不同的音频呢？

TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

Other

1.84k stars 219 forks source link

Open wangwenjie1314 opened 2 weeks ago

wangwenjie1314 commented 2 weeks ago

如下图Readme.md截图所示：

难道是，对视频不同的人说话时分别截取成A\B\C\D等mp4，然后分别使用MuseTalk 改口型，这样也太麻烦了啊。

aidenyzhang commented 1 week ago

这个应该属于另一个研究领域了。可以考虑从音频识别的角度把视频分段。但是影视剧场景中，经常会出现A说话但是画面中的人却是B，这种场景似乎很难自动识别。