Open 1649759610 opened 6 months ago
你好,感谢贡献TaiSu数据集。
在数据下载目录中,filtered_caption.txt中caption的数量大约是14M,共计有37个压缩文件,看了下文件中都是图片,图片数量远远大于caption数量。
这个是为什么呢?
你好, caption 文本应该包含一亿多行, 有的行包含两个文本。 图片数据可能在不同文件夹有重复, 以及有一部分图片是没有文本标注的,建议用caption id 来获取对应图片。
你好,感谢贡献TaiSu数据集。
在数据下载目录中,filtered_caption.txt中caption的数量大约是14M,共计有37个压缩文件,看了下文件中都是图片,图片数量远远大于caption数量。
这个是为什么呢?