为什么训练示例里一张png图片对应一个.npy文件？

TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

Other

2.52k stars 310 forks source link

一个时长为t的视频，对应25t 张图，whisper特征是[50t, 5, 384] 其中50是whisper会把一秒的音频转化为50个特征，5是不同的层，384是某一层的特征维度。可以参考下图。

如果采用1-1对应，1张图应该是对应[2,5,384]维的特征。根据wav2lip等工作的经验会采用1-5对应，一张图对应的特征是[10,5,384]，用到了相邻帧的音频特征。

TMElyralab / MuseTalk