请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 - Githubissues

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.01k stars 418 forks source link

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

Open xiuxiuxius opened 2 months ago

xiuxiuxius commented 2 months ago

1.我准备了一些语句，都是返回张数不足50张的语句：

抱着孩子的男人背包的女人戴眼镜的男人骑自行车的孩子一个走在公园里的女孩一群走在山里的男人在河边的金发少女包饺子亲子活动踏青提行李箱的男人在清晨跑步的女人在水里盛开的花在田野里的狗

2.先是在demo里搜索，参数如下，并利用chrome的插件imageye，把返回的图片都下载下来：

返回图片数：50张，模型：中文CLIP(Base)，返回缩略图：否因为不同语句搜到的图片存在重复，所以我通过hash值进行了重命名，并用一张表保存每张图对应的语句列表

3.把这些图片都加入一个新的向量库，在本地构建的搜索接口测试搜索：

图片和文本都是用的clip-vit-b-16进行向量化，利用余弦相似度进行降序，阈值0.2，结果是，返回的图片并不完全一样，大部分是差个一两张，但是“踏青”，结果差了9张图。详细见下图