haihuangcode / CMG

The official implementation of Achieving Cross Modal Generalization with Multimodal Unified Representation (NeurIPS '23)
165 stars 2 forks source link

embedding updated in MM_EMA #8

Open RIU-13 opened 2 months ago

RIU-13 commented 2 months ago

在main_model_2.py的Cross_VQEmbeddingEMA中,self.embedding更新了三次【self.embedding = self.ema_weight / self.ema_count.unsqueeze(-1)】,但只有最后一次赋值起作用?

haihuangcode commented 2 months ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。

RIU-13 commented 2 months ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。

感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低

haihuangcode commented 2 months ago

感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低

audio-video两模态预训练,v2v和a2a接近100%,v2a和a2v>40%。 audio-video-text三模态预训练,这里英文文本是我们自己生成的,不是特别和原音视频匹配的,而且对齐时很随意,所以t2t低一点,我记得是v2v和a2a接近100%,t2t>70%,然后其他的比如t2a、a2v这种跨模态的一般是50%左右吧。

yyyxcleo commented 1 week ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。

感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低 您好,想问一下您跑通原pretrain代码了吗,可以加您联系方式交流一下吗