Open RIU-13 opened 2 months ago
self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。
self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。
感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低
感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低
audio-video两模态预训练,v2v和a2a接近100%,v2a和a2v>40%。 audio-video-text三模态预训练,这里英文文本是我们自己生成的,不是特别和原音视频匹配的,而且对齐时很随意,所以t2t低一点,我记得是v2v和a2a接近100%,t2t>70%,然后其他的比如t2a、a2v这种跨模态的一般是50%左右吧。
self.ema_weight / self.ema_count.unsqueeze(-1) 因为每次ema_weight和ema_count都被更新了,最后的embedding相当于这几个模态影响后的结果。除了最后一次赋值embedding,其他的确实没影响,这里是为了保持格式一样,不写也行。
感谢您的回答!请问在预训练过程中的acc大概能达到多少呢?改了一下CPC的架构,acc很低 您好,想问一下您跑通原pretrain代码了吗,可以加您联系方式交流一下吗
在main_model_2.py的Cross_VQEmbeddingEMA中,self.embedding更新了三次【self.embedding = self.ema_weight / self.ema_count.unsqueeze(-1)】,但只有最后一次赋值起作用?