Closed pigmeetsomebody closed 2 months ago
一个时长为t的视频,对应25t 张图,whisper特征是[50t, 5, 384] 其中50是whisper会把一秒的音频转化为50个特征,5是不同的层,384是某一层的特征维度。可以参考下图。
如果采用1-1对应,1张图应该是对应[2,5,384]维的特征。 根据wav2lip等工作的经验会采用1-5对应,一张图对应的特征是[10,5,384],用到了相邻帧的音频特征。
在我们代码里的实现可以参考这里的feature2chunks函数。 https://github.com/TMElyralab/MuseTalk/blob/main/musetalk/whisper/audio2feature.py#L81
为什么训练示例里一张png图片对应一个.npy文件, 我理解一个video下可以用ffmpeg拆成多个图片,但是一个视频的一个音频文件只能产生一个npy文件,其中的对应关系是什么呢?