关于训练的数据准备

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.5k stars 464 forks source link

关于训练的数据准备 #122

Closed duyz1234 closed 1 year ago

duyz1234 commented 1 year ago

您好！我在尝试自己准备数据集，如图所示

在执行： python cn_clip/preprocess/build_lmdb_dataset.py --data_dir Chinese-CLIP/DATA/datasets/CH-1/test/ --splits train的时候出现如下报错：

这种我该如何解决呢

DtYXs commented 1 year ago

您好，建议您可以再根据数据集格式预处理中的目录检查一下文件。您可以再检查一下xxx_texts.jsonl文件中是否每一行都是一个完整的json格式数据。另外根据您的报错，您可以在cn_clip/preprocess/build_lmdb_dataset.py第64行附近添加一些print来输出一下目前程序读取的line和field分别具体是什么，来帮助判断一下问题。