OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.01k stars 418 forks source link

请问demo用的base模型跟本项目给的CN-CLIP(ViT-B/16)是同一个模型吗?跟我本地的测试结果不太一样 #306

Open xiuxiuxius opened 2 months ago

xiuxiuxius commented 2 months ago

1.我准备了一些语句,都是返回张数不足50张的语句:

抱着孩子的男人 背包的女人 戴眼镜的男人 骑自行车的孩子 一个走在公园里的女孩 一群走在山里的男人 在河边的金发少女 包饺子 亲子活动 踏青 提行李箱的男人 在清晨跑步的女人 在水里盛开的花 在田野里的狗

2.先是在demo里搜索,参数如下,并利用chrome的插件imageye,把返回的图片都下载下来:

返回图片数:50张,模型:中文CLIP(Base),返回缩略图:否 因为不同语句搜到的图片存在重复,所以我通过hash值进行了重命名,并用一张表保存每张图对应的语句列表

3.把这些图片都加入一个新的向量库,在本地构建的搜索接口测试搜索:

图片和文本都是用的clip-vit-b-16进行向量化,利用余弦相似度进行降序,阈值0.2,结果是,返回的图片并不完全一样,大部分是差个一两张,但是“踏青”,结果差了9张图。详细见下图 image