embedding updated in MM_EMA

haihuangcode / CMG

The official implementation of Achieving Cross Modal Generalization with Multimodal Unified Representation (NeurIPS '23)

165 stars 2 forks source link

embedding updated in MM_EMA #8

Open RIU-13 opened 2 months ago

RIU-13 commented 2 months ago

在main_model_2.py的Cross_VQEmbeddingEMA中，self.embedding更新了三次【self.embedding = self.ema_weight / self.ema_count.unsqueeze(-1)】，但只有最后一次赋值起作用？

haihuangcode commented 2 months ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了，最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding，其他的确实没影响，这里是为了保持格式一样，不写也行。

RIU-13 commented 2 months ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了，最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding，其他的确实没影响，这里是为了保持格式一样，不写也行。

感谢您的回答！请问在预训练过程中的acc大概能达到多少呢？改了一下CPC的架构，acc很低

haihuangcode commented 2 months ago

感谢您的回答！请问在预训练过程中的acc大概能达到多少呢？改了一下CPC的架构，acc很低

audio-video两模态预训练，v2v和a2a接近100%，v2a和a2v>40%。 audio-video-text三模态预训练，这里英文文本是我们自己生成的，不是特别和原音视频匹配的，而且对齐时很随意，所以t2t低一点，我记得是v2v和a2a接近100%，t2t>70%，然后其他的比如t2a、a2v这种跨模态的一般是50%左右吧。

yyyxcleo commented 1 week ago

self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了，最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding，其他的确实没影响，这里是为了保持格式一样，不写也行。

感谢您的回答！请问在预训练过程中的acc大概能达到多少呢？改了一下CPC的架构，acc很低您好，想问一下您跑通原pretrain代码了吗，可以加您联系方式交流一下吗