zjunlp / IEPile

[ACL 2024] IEPile: A Large-Scale Information Extraction Corpus
http://oneke.openkg.cn/
Other
166 stars 15 forks source link

hugging face 上release的dataset格式报错。 #3

Closed zig-kwin-hu closed 7 months ago

zig-kwin-hu commented 7 months ago

您好,我在用如下代码试图加载zjunlp/iepie (这个名字是否应该改为zjunlp/iepile😂)

import datasets
datasets.load_dataset('zjunlp/iepie')

在download完成后,显示报错: File "/home/zkhu143/anaconda3/envs/llama2/lib/python3.8/site-packages/datasets/table.py", line 2286, in cast_table_to_schema raise ValueError(f"Couldn't cast\n{table.schema}\nto\n{features}\nbecause column names don't match")

在检查zjunlp/iepie这一repo的文件后,发现各个文件的json格式都不一样,很多不满足 {'task': Value(dtype='string', id=None), 'source': Value(dtype='string', id=None), 'instruction': Value(dtype='string', id=None), 'output': Value(dtype='string', id=None)}这样的格式。

请问这是否意味着后续将有更新呢?

zxlzr commented 7 months ago

您好,感谢指出错误,我们已更新hf的数据集名字,关于json格式正在排查中

guihonghao commented 7 months ago

你好,你应该下载https://huggingface.co/datasets/zjunlp/iepile/resolve/main/train.json、https://huggingface.co/datasets/zjunlp/iepile/resolve/main/dev.json,这两份数据,这两份数据包含论文中提到的除ACE2005外的所有数据的指令数据。此外仓库内还包含各个数据集的原始数据,因此存在格式冲突

zig-kwin-hu commented 7 months ago

感谢回复,那么请问如果要复现IEPILE的结果,是否还需要test.json呢?

guihonghao commented 7 months ago

我们提供了各个数据集的test集,你可以通过我们提供的测试数据转换脚本转换成指定格式。

zxlzr commented 7 months ago

请问您还有其他问题吗