deepglint / RWKV-CLIP

[EMNLP 2024] RWKV-CLIP: A Robust Vision-Language Representation Learner
MIT License
115 stars 8 forks source link

方便提供一个直接输入一张图像路径和一个文本字符串计算其相似度的代码吗? #9

Closed nianfd closed 4 weeks ago

nianfd commented 1 month ago

您好,目前希望对比下同一个图像文本对您这个模型和openlip模型的相似度差异,方便提供一个类似openclip那种直接输入一张图像路径和一个文本字符串计算其相似度的.py代码吗?现在的代码是针对数据集的且需要对图像文本做格式转换才可以。 感谢。

GaryGuTC commented 1 month ago

请参考 usage.

nianfd commented 1 month ago

非常感谢,还有一个疑问?如果输入图片不是224,想提取640分辨率图像的特征该怎么操作呢?

GaryGuTC commented 1 month ago

目前模型还不支持除224分辨率以外的图像输入,如有需要可能要resize图片到224分辨率才能输入