OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.32k stars 448 forks source link

数据准备格式疑问 #221

Open dengfenglai321 opened 10 months ago

dengfenglai321 commented 10 months ago

将训练/验证/测试图片以base64形式分别存放在${split}_imgs.tsv文件中。文件每行表示一张图片,包含图片id(int型)与图片base64,以tab隔开,格式如下: 图片id base64 1000002 /9j/4AAQSkZJ...YQj7314oA//2Q==

文本信息及图文对匹配关系则保存在${split}_texts.jsonl文件。文件每行是一行json,格式如下:

{"text_id": 8428, "text": "高级感托特包斜挎", "image_ids": [1076345, 517602]}

请问image_ids是等于图片id吗??还是图片名字?? images_ids和图片id有区别吗?

zhanbaohang commented 7 months ago

我所理解的没区别,这就是个图片的索引,方便图文对齐,也为了后续测试的时候可以看看召回的top里面是否有正确的答案