大佬你好，如果进行微调的话CN-CLIPViT-H/14 CN-CLIPViT-L/14@336px基于这两个模型微调，一般这两个哪个好？

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.5k stars 464 forks source link

Closed xuboot closed 1 year ago

yangapku commented 1 year ago

可以参考我们几个下游任务分数哈，一般是huge更好些。

skyantao commented 1 year ago

可以参考我们几个下游任务分数哈，一般是huge更好些。

微调以后，原始的能力会受影响吗？我的场景是，部分图片检索不准确，我就对这些图片进行标注后finetune , 现在出来的结果感觉老的模型匹配能力下降了