Open thbupt opened 3 weeks ago
我看文章里说在训练之前,是用mclip来过滤数据的,clip score低于0.26的都过滤掉。这个clip score就是计算的图像emb和文本emb的余弦相似度吗。我测试了一下,发现无论图文多匹配,能超过0.26的都不多。
我看文章里说在训练之前,是用mclip来过滤数据的,clip score低于0.26的都过滤掉。这个clip score就是计算的图像emb和文本emb的余弦相似度吗。我测试了一下,发现无论图文多匹配,能超过0.26的都不多。