OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.21k stars 439 forks source link

自建数据集微调的疑问 #233

Closed MarcoZuo closed 8 months ago

MarcoZuo commented 8 months ago

在进行tsv和jsonl文件序列化生成LMDB文件时,使用如下命令(DATAPATH已经被替换): python Chinese-CLIP/cn_clip/preprocess/build_lmdb_dataset.py \ --data_dir RailwayBreakdown/datasets/Railway_Track_fault_Detection_Updated --splits train,valid,test 总是生成失败,只能生成一个imgs文件夹,没有pairs,且mdb文件大小明显偏小(图1),或者报错(图2) image 图1 image 图2

MarcoZuo commented 8 months ago

另外测试了本项目提供的Flickr30k-CN数据集,删除lmdb文件夹后再运行生成的也是如图1所示的问题 image

Lw1244204021 commented 3 weeks ago

你好 ,请问你是怎么解决的呀?