OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.38k stars 453 forks source link

请问在三个图文检索数据集上微调时,有使用两阶段微调的方式吗? #280

Open xiuxiuxius opened 6 months ago

xiuxiuxius commented 6 months ago

我直接使用最新master提供的muge_finetune_vit-b-16_rbt-base.sh进行训练,freeze_vision="",1张v100,其他参数没变,微调结束后结果提交到官网,评估结果比zero-shot低。

zero-shot:Recall@1=52.16, Recall@5=76.22, Recall@5=83.97, Mean Recall=70.78 finetune:Recall@1=48.82, Recall@5=75.8, Recall@5=84.59, Mean Recall=69.74

如果微调你们用了两阶段的话,参数有调整吗?像学习率、epoch等这些

另外请问你们最近有预训练其他的图文匹配模型吗,比如ALBEF、BLIP2等

xiuxiuxius commented 6 months ago

感觉是没有,我试了一下两阶段的微调方式,评估指标没有单阶段的高

shiqwang commented 6 months ago

数据集有多少

xiuxiuxius commented 6 months ago

数据集有多少

用的MUGE的数据集呀,没有做其他处理,直接用的

DtYXs commented 6 months ago

您好,微调时没有用两阶段的方式,可以参考我们的技术报告中给出的超参数配置。给出的脚本默认超参应该不适合1*V100训练,需要自行调整一下超参设置。

xiuxiuxius commented 5 months ago

您好,微调时没有用两阶段的方式,可以参考我们的技术报告中给出的超参数配置。给出的脚本默认超参应该不适合1*V100训练,需要自行调整一下超参设置。

感谢回复

Socrates870271121 commented 5 months ago

如果我是拿Resnet50去提取图片特征,Word2ver提取文本特征,我的数据是50000个图像文本对,怎么调参训练好点呢? 我拿早期融合mlp和晚期融合的gru,训练出来的在测试集上效果都不好