Closed kukuhaza closed 1 year ago
您好,中文CLIP主要用于多模态表征学习,具体可以用于图文之间做跨模态检索,以及图片零样本分类任务哈,对于图像描述生成任务,建议您尝试我们OFA-Sys组织下的另一个项目OFA哈,里面提供了中英文图像描述生成的模型
主要就是想用您这个 image encoder 跟 text encoder提取的特征,所以用自己的图像和文本的数据集 finetuning这两个encoder,用这个是可以实现的吧?
还有想问一下 text_id 是什么? 如果一张图片只对应一条文本的话, text_id应该是什么呢? text_id和image_id有什么对应关系吗? 我想处理数据成您这里要求的格式,为了提取特征
可以实现的,text_id和image_id是文本和图片分别的index,是两套index体系,没有关联。我们给数据集的每条文本和图片分别赋予一个id,主要是为了方便把特征和检索结果对应到具体的文本和图片上。只要保证不同文本有不同的text_id就好了,比如MUGE数据集中,我们赋予了每条文本query一个独有的text_id,来自原始MUGE比赛数据集的query_id字段。
好的懂了,感谢!
请问用于图像描述的数据预处理是怎么进行的? 我在 跨模态检索教程看到 text的数据部分有id,但是图像描述的话应该没有id这个属性吧? 如果有具体的处理过程,请告知。 十分感谢,祝你度过美好的一天~