TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
2.52k stars 310 forks source link

为什么训练示例里一张png图片对应一个.npy文件? #138

Closed pigmeetsomebody closed 2 months ago

pigmeetsomebody commented 3 months ago

为什么训练示例里一张png图片对应一个.npy文件, 我理解一个video下可以用ffmpeg拆成多个图片,但是一个视频的一个音频文件只能产生一个npy文件,其中的对应关系是什么呢?

image

aidenyzhang commented 2 months ago

一个时长为t的视频,对应25t 张图,whisper特征是[50t, 5, 384] 其中50是whisper会把一秒的音频转化为50个特征,5是不同的层,384是某一层的特征维度。可以参考下图。 image

如果采用1-1对应,1张图应该是对应[2,5,384]维的特征。 根据wav2lip等工作的经验会采用1-5对应,一张图对应的特征是[10,5,384],用到了相邻帧的音频特征。

在我们代码里的实现可以参考这里的feature2chunks函数。 https://github.com/TMElyralab/MuseTalk/blob/main/musetalk/whisper/audio2feature.py#L81