图文特征融合 - Githubissues

@yangapku 您好，当前在用cnclip做分类任务，相当于提取的图像特征往文本特征上靠，根据相似度判断当前图像所属的类别；这里有个想法，能否在文本类别特征上加上一点图像特征，这个图像可以是类别小图，让图和文本进行融合，从而获取到更加牛逼的检索特征，这里简单尝试了加权平均等，没啥效果，不知道作者有没有什么建议