自建数据集微调的疑问

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.21k stars 439 forks source link

自建数据集微调的疑问 #233

Closed MarcoZuo closed 8 months ago

MarcoZuo commented 8 months ago

在进行tsv和jsonl文件序列化生成LMDB文件时，使用如下命令（DATAPATH已经被替换）： python Chinese-CLIP/cn_clip/preprocess/build_lmdb_dataset.py \ --data_dir RailwayBreakdown/datasets/Railway_Track_fault_Detection_Updated --splits train,valid,test 总是生成失败，只能生成一个imgs文件夹，没有pairs，且mdb文件大小明显偏小（图1），或者报错（图2）图1 图2

MarcoZuo commented 8 months ago

另外测试了本项目提供的Flickr30k-CN数据集，删除lmdb文件夹后再运行生成的也是如图1所示的问题

Lw1244204021 commented 3 weeks ago

你好，请问你是怎么解决的呀？