Closed gyftsy closed 7 months ago
这个unexpected_keys是正常的,预训练时顺带存了clip_teacher的权重。结果不理想也许和数据关系较大,没有具体的内容比较难判断,我这边上传了一个zero-shot msrvtt检索的log,您可以对照着看看。当时代码没有整理,部分函数、路径和模型名字有所不同:https://drive.google.com/file/d/1bMv2uLu0kNsQgcelHKUu7g_JAAMcriBN/view?usp=sharing
https://github.com/OpenGVLab/unmasked_teacher/assets/43568835/89cbbf2b-608f-43e0-8170-f7cc7b165117 我使用了这个视频,对应的描述是dance,我这边测试了不用的样例,查看到视频和文字的相似度基本都在0.2-0.3之间,比较奇怪,但是我仍然没有定位到问题在哪里,目前我使用的是b16模型 bert对应也是base 如果可以的话,辛苦您这边可以帮忙测试一下这对数据的相似度 也就是代码中 i2t_scores, t2i_scores = get_sim( model.vision_proj(_pooled_image_feats), model.text_proj(text_feats[:, 0]) ) 对应的结果 感谢~
或者如果方便的话也可以加我的微信835781085哈 我这边整理了视频-文字相似度计算的demo 目前可以运行 但是结果不太理想 也可以share给大家(如果需要的话)
https://github.com/OpenGVLab/unmasked_teacher/assets/43568835/89cbbf2b-608f-43e0-8170-f7cc7b165117 我使用了这个视频,对应的描述是dance,我这边测试了不用的样例,查看到视频和文字的相似度基本都在0.2-0.3之间,比较奇怪,但是我仍然没有定位到问题在哪里,目前我使用的是b16模型 bert对应也是base 如果可以的话,辛苦您这边可以帮忙测试一下这对数据的相似度 也就是代码中 i2t_scores, t2i_scores = get_sim( model.vision_proj(_pooled_image_feats), model.text_proj(text_feats[:, 0]) ) 对应的结果 感谢~
相似度在0.2-0.3之间对这个模型来说是正常的,我们在InternVid数据集中使用UMT统计过数据集的相似度分布,基本也在这个分布
所以我能这么理解么?这个模型大概是视频文本对相似的话0.3x 不相似的话0.2x么?
可能不能看绝对值下定义,需要看相对值,相对高的为相似
hi,我这边在基于您的权重和代码,想实现一个关于zeroshot文字和视频相似度的测定demo,在读取权重的过程中,log会报如下的日志,从我目前的测试样本和结果来看,结果并不理想,所以想和你确认一下,我看权重读取的时候会报丢失一些key的log,这个是正常的么?我这边没有公开的数据集,是拿自己的样本测试的