OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

关于构建自己的clip模型训练数据集 #155

Open 4728pomegranate opened 1 year ago

4728pomegranate commented 1 year ago

您好~想问一下,在构建自己的数据集,将图片转为base64的格式,并且存储在.tsv文件中,img id的类型存储为string类型会有影响吗?

yangapku commented 1 year ago

您好,建议最好还是采用int哈,我们确实没有尝试过准备为string类型进行后续流程的测试。

1605707467qq commented 1 year ago

请问构建自己的数据集也有介绍嘛?暂时没有找到,目前已有图片和描述

yangapku commented 1 year ago

您好,请参见readme哈,我们有整个流程的介绍。 @1605707467qq

ctgushiwei commented 2 weeks ago

@yangapku 构建数据的流程能不能更具体点,或者提供原始转tsv和jsonl的脚本