OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.58k stars 473 forks source link

关于clip score的计算方式 #368

Open thbupt opened 3 weeks ago

thbupt commented 3 weeks ago

我看文章里说在训练之前,是用mclip来过滤数据的,clip score低于0.26的都过滤掉。这个clip score就是计算的图像emb和文本emb的余弦相似度吗。我测试了一下,发现无论图文多匹配,能超过0.26的都不多。