OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

关于训练的数据准备 #122

Closed duyz1234 closed 1 year ago

duyz1234 commented 1 year ago

您好!我在尝试自己准备数据集,如图所示

78e09e32709bc572cd12ed1c4c666af

在执行: python cn_clip/preprocess/build_lmdb_dataset.py --data_dir Chinese-CLIP/DATA/datasets/CH-1/test/ --splits train的时候出现如下报错:

c73d2b4ae00d595d68ffe7e4a6ea283 e068f8777c0e099ebcb657726a5f682

这种我该如何解决呢

DtYXs commented 1 year ago

您好,建议您可以再根据数据集格式预处理中的目录检查一下文件。 您可以再检查一下xxx_texts.jsonl文件中是否每一行都是一个完整的json格式数据。 另外根据您的报错,您可以在cn_clip/preprocess/build_lmdb_dataset.py第64行附近添加一些print来输出一下目前程序读取的linefield分别具体是什么,来帮助判断一下问题。