Open xiuxiuxius opened 2 months ago
抱着孩子的男人 背包的女人 戴眼镜的男人 骑自行车的孩子 一个走在公园里的女孩 一群走在山里的男人 在河边的金发少女 包饺子 亲子活动 踏青 提行李箱的男人 在清晨跑步的女人 在水里盛开的花 在田野里的狗
返回图片数:50张,模型:中文CLIP(Base),返回缩略图:否 因为不同语句搜到的图片存在重复,所以我通过hash值进行了重命名,并用一张表保存每张图对应的语句列表
图片和文本都是用的clip-vit-b-16进行向量化,利用余弦相似度进行降序,阈值0.2,结果是,返回的图片并不完全一样,大部分是差个一两张,但是“踏青”,结果差了9张图。详细见下图
1.我准备了一些语句,都是返回张数不足50张的语句:
抱着孩子的男人 背包的女人 戴眼镜的男人 骑自行车的孩子 一个走在公园里的女孩 一群走在山里的男人 在河边的金发少女 包饺子 亲子活动 踏青 提行李箱的男人 在清晨跑步的女人 在水里盛开的花 在田野里的狗
2.先是在demo里搜索,参数如下,并利用chrome的插件imageye,把返回的图片都下载下来:
返回图片数:50张,模型:中文CLIP(Base),返回缩略图:否 因为不同语句搜到的图片存在重复,所以我通过hash值进行了重命名,并用一张表保存每张图对应的语句列表
3.把这些图片都加入一个新的向量库,在本地构建的搜索接口测试搜索:
图片和文本都是用的clip-vit-b-16进行向量化,利用余弦相似度进行降序,阈值0.2,结果是,返回的图片并不完全一样,大部分是差个一两张,但是“踏青”,结果差了9张图。详细见下图![image](https://github.com/OFA-Sys/Chinese-CLIP/assets/89114157/7a2394d2-65ab-4c3b-b0b7-26314b9e5877)