ksOAn6g5 / TaiSu

TaiSu(太素)--a large-scale Chinese multimodal dataset(亿级大规模中文视觉语言预训练数据集)
Other
172 stars 11 forks source link

Caption数量和图片数量不匹配 #7

Open 1649759610 opened 6 months ago

1649759610 commented 6 months ago

你好,感谢贡献TaiSu数据集。

在数据下载目录中,filtered_caption.txt中caption的数量大约是14M,共计有37个压缩文件,看了下文件中都是图片,图片数量远远大于caption数量。

这个是为什么呢?

ksOAn6g5 commented 6 months ago

你好, caption 文本应该包含一亿多行, 有的行包含两个文本。 图片数据可能在不同文件夹有重复, 以及有一部分图片是没有文本标注的,建议用caption id 来获取对应图片。