OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.38k stars 453 forks source link

图文特征融合 #289

Open Amore-HDU opened 5 months ago

Amore-HDU commented 5 months ago

@yangapku 您好,当前在用cnclip做分类任务,相当于提取的图像特征往文本特征上靠,根据相似度判断当前图像所属的类别;这里有个想法,能否在文本类别特征上加上一点图像特征,这个图像可以是类别小图,让图和文本进行融合,从而获取到更加牛逼的检索特征,这里简单尝试了加权平均等,没啥效果,不知道作者有没有什么建议