请问在三个图文检索数据集上微调时，有使用两阶段微调的方式吗？

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.38k stars 453 forks source link

Open xiuxiuxius opened 6 months ago

xiuxiuxius commented 6 months ago

我直接使用最新master提供的muge_finetune_vit-b-16_rbt-base.sh进行训练，freeze_vision=""，1张v100，其他参数没变，微调结束后结果提交到官网，评估结果比zero-shot低。

zero-shot：Recall@1=52.16, Recall@5=76.22, Recall@5=83.97, Mean Recall=70.78 finetune：Recall@1=48.82, Recall@5=75.8, Recall@5=84.59, Mean Recall=69.74

如果微调你们用了两阶段的话，参数有调整吗？像学习率、epoch等这些

另外请问你们最近有预训练其他的图文匹配模型吗，比如ALBEF、BLIP2等

xiuxiuxius commented 6 months ago

感觉是没有，我试了一下两阶段的微调方式，评估指标没有单阶段的高

shiqwang commented 6 months ago

数据集有多少

xiuxiuxius commented 6 months ago

数据集有多少

用的MUGE的数据集呀，没有做其他处理，直接用的

DtYXs commented 6 months ago

您好，微调时没有用两阶段的方式，可以参考我们的技术报告中给出的超参数配置。给出的脚本默认超参应该不适合1*V100训练，需要自行调整一下超参设置。

xiuxiuxius commented 5 months ago

您好，微调时没有用两阶段的方式，可以参考我们的技术报告中给出的超参数配置。给出的脚本默认超参应该不适合1*V100训练，需要自行调整一下超参设置。

感谢回复

Socrates870271121 commented 5 months ago

如果我是拿Resnet50去提取图片特征，Word2ver提取文本特征，我的数据是50000个图像文本对，怎么调参训练好点呢？我拿早期融合mlp和晚期融合的gru，训练出来的在测试集上效果都不好