OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

训练模型时,他是输入一个图片对应多个query,还是随机输入不同的query和图片,如果是前者的话,我保持图片数量不变,增加query应该不会增加太多训练时间 #72

Closed shenghuangxu closed 1 year ago

DtYXs commented 1 year ago

您好,您可以参考README中数据集格式预处理部分。由于训练之前需要把数据通过cn_clip/preprocess/build_lmdb_dataset.py脚本转换为内存索引的LMDB数据库文件。这个过程后,得到的数据每一条为一个图片及一个quary的图文pair对,并非一个图片对应多个query,因此增加query会增加数据的数量而增加训练时间。