关于图像描述任务的数据预处理

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.5k stars 464 forks source link

关于图像描述任务的数据预处理 #102

Closed kukuhaza closed 1 year ago

kukuhaza commented 1 year ago

请问用于图像描述的数据预处理是怎么进行的？我在跨模态检索教程看到 text的数据部分有id，但是图像描述的话应该没有id这个属性吧？如果有具体的处理过程，请告知。十分感谢，祝你度过美好的一天~

yangapku commented 1 year ago

您好，中文CLIP主要用于多模态表征学习，具体可以用于图文之间做跨模态检索，以及图片零样本分类任务哈，对于图像描述生成任务，建议您尝试我们OFA-Sys组织下的另一个项目OFA哈，里面提供了中英文图像描述生成的模型

kukuhaza commented 1 year ago

主要就是想用您这个 image encoder 跟 text encoder提取的特征，所以用自己的图像和文本的数据集 finetuning这两个encoder，用这个是可以实现的吧？

kukuhaza commented 1 year ago

还有想问一下 text_id 是什么？如果一张图片只对应一条文本的话， text_id应该是什么呢？ text_id和image_id有什么对应关系吗？我想处理数据成您这里要求的格式，为了提取特征

yangapku commented 1 year ago

可以实现的，text_id和image_id是文本和图片分别的index，是两套index体系，没有关联。我们给数据集的每条文本和图片分别赋予一个id，主要是为了方便把特征和检索结果对应到具体的文本和图片上。只要保证不同文本有不同的text_id就好了，比如MUGE数据集中，我们赋予了每条文本query一个独有的text_id，来自原始MUGE比赛数据集的query_id字段。

kukuhaza commented 1 year ago

好的懂了，感谢！