Open wangwenjie1314 opened 2 weeks ago
如下图Readme.md截图所示:
难道是,对视频不同的人说话时分别截取成A\B\C\D等mp4,然后分别使用MuseTalk 改口型,这样也太麻烦了啊。
这个应该属于另一个研究领域了。 可以考虑从音频识别的角度把视频分段。 但是影视剧场景中,经常会出现A说话但是画面中的人却是B,这种场景似乎很难自动识别。
如下图Readme.md截图所示:
难道是,对视频不同的人说话时分别截取成A\B\C\D等mp4,然后分别使用MuseTalk 改口型,这样也太麻烦了啊。