OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.38k stars 453 forks source link

关于对导入LMDB数据集在微调的时候出现并行的问题 #287

Open jakeallen123 opened 5 months ago

jakeallen123 commented 5 months ago

在训练数据集微调的时候,使用自己的数据集(train数据集规模为700条)跑bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh,出现如下问题: 在默认的NUM_WORKERS情况下,出现在读取lmdb的时候(/Chinese-CLIP/cn_clip/training/data.py)出现多条两条数据混在一起的情况 140010034420 397 等,坐享公园纯氧,让您健康无忧. 140010026690140010044832 281 但又看着怀里活泼可爱的儿子,我只能默默流眼泪……我特别想离开但又555 宜春没有办理的抓紧时间! 140010045148 570 高杉真宙,间宫祥太朗加盟《tori girl》演情敌 ... 140010039142 465 140010039108雄鹿夺冠,金靴奖该给谁?字母哥名场面多,但洛佩兹才是 463 戴手表不仅彰显地位身份,更是成熟自信象征! 请问为什么会出现这种情况,以及怎么解决

ChesonHuang commented 5 months ago

很有可能你的这些数据之间没有换行符\n