ksOAn6g5 / TaiSu

TaiSu(太素)--a large-scale Chinese multimodal dataset(亿级大规模中文视觉语言预训练数据集)
Other
172 stars 11 forks source link

数据集解压问题 #3

Open wantsjean opened 1 year ago

wantsjean commented 1 year ago

$ tar xvf baidu_image10.tgz tar: This does not look like a tar archive tar: Skipping to next header tar: Archive contains ‘\356S\305>\003\376\272\022\212\222\240\251’ where numeric off_t value expected

目前解压了三个tgz文件都是报这个错误,请问是数据问题还是我的解压方式有问题呢

ksOAn6g5 commented 1 year ago

提供的压缩文件有 .tar, .tgz, .tar.gz几种格式。解压命令是不一样的。您可以查一下解压命令。可以用pigz -d baidu*.tgz 将.tgt文件转成tar, 然后统一解压缩.tar文件。

wantsjean commented 1 year ago

好的,谢谢~

songtao-liu-mt commented 1 year ago

我在解压image11和12的时候,用如下命令,pigz -d baidu_image11.tgz,会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch

ksOAn6g5 commented 1 year ago

我在解压image11和12的时候,用如下命令,pigz -d baidu_image11.tgz,会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch

这可能是下载文件出错了。

songtao-liu-mt commented 1 year ago

我在解压image11和12的时候,用如下命令,pigz -d baidu_image11.tgz,会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch

这可能是下载文件出错了。

我又重新下了两次,还是有这个问题,就11, 12这两个有问题,麻烦作者再确认一下? 谢谢~

songtao-liu-mt commented 1 year ago

我在解压image11和12的时候,用如下命令,pigz -d baidu_image11.tgz,会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch

这可能是下载文件出错了。

我又重新下了两次,还是有这个问题,就11, 12这两个有问题,麻烦作者再确认一下? 谢谢~

最后用7z解压的,虽然还是会报错但是能用了