训练模型时，他是输入一个图片对应多个query，还是随机输入不同的query和图片，如果是前者的话，我保持图片数量不变，增加query应该不会增加太多训练时间

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.5k stars 464 forks source link

训练模型时，他是输入一个图片对应多个query，还是随机输入不同的query和图片，如果是前者的话，我保持图片数量不变，增加query应该不会增加太多训练时间 #72

Closed shenghuangxu closed 1 year ago

DtYXs commented 1 year ago

您好，您可以参考README中数据集格式预处理部分。由于训练之前需要把数据通过cn_clip/preprocess/build_lmdb_dataset.py脚本转换为内存索引的LMDB数据库文件。这个过程后，得到的数据每一条为一个图片及一个quary的图文pair对，并非一个图片对应多个query，因此增加query会增加数据的数量而增加训练时间。