PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
11.98k stars 2.92k forks source link

阅读理解案例数据集问题,数据格式为arrow,且from datasets import load_dateset中的dataset文档找不到。 #2948

Closed Chucy2020 closed 2 years ago

Chucy2020 commented 2 years ago

欢迎您反馈PaddleNLP使用问题,非常感谢您对PaddleNLP的贡献! 在留下您的问题时,辛苦您同步提供如下信息:

如还有问题可以到 PaddleNLP github 主页面的社区交流扫描加入微信群,相关值班同学将会为您解答!

您好,最近在跑阅读理解的案例,发现robust的数据通过load_dataset调用后是arrow格式,且找不到下图中的datasets代码文件。麻烦解答一下。 image

wawltor commented 2 years ago

这个datasets是一个python工具包,可以直接pip install 一下

Chucy2020 commented 2 years ago

这个datasets是一个python工具包,可以直接pip install 一下

请问这个能加载本地json文件吗?还是只能加载arrow格式文件?我用该函数加载本地的robust的json文件报错,因为下载的robust文件是json格式,请问怎么处理? image

image

wawltor commented 2 years ago

https://huggingface.co/docs/datasets/loading#json json的加载可以看这里的文档

Chucy2020 commented 2 years ago

https://huggingface.co/docs/datasets/loading#json json的加载可以看这里的文档

感谢你的解答,但是这个json嵌套格式和Dureader_Robust的格式不一样,直接加载还是会报错,请问你们代码这部分是怎么加载的? image robust格式如下: image

guoshengCS commented 2 years ago

是您那边的数据格式和dureader_robust的一样是吗

Chucy2020 commented 2 years ago

是您那边的数据格式和dureader_robust的一样是吗

是的,我就是用的dureader_robust数据集,跑的你们提供的代码,只是我服务器无法联网,没法下载数据,只能手动下载下来,但是加载本地的数据集总是报错。我该采用什么方式能跑通你们提供的案例,并且可以跑其他的本地和dureader_robust数据格式一样的阅读理解数据集?

guoshengCS commented 2 years ago

这种情况的话也有其他处理办法,比较直接的一种是您那边可以本地用python -m http.server启一个http server,然后将 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L34 这里的URL换成本地的压缩包URL就可以使用了

Chucy2020 commented 2 years ago

这种情况的话也有其他处理办法,比较直接的一种是您那边可以本地用python -m http.server启一个http server,然后将 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L34 这里的URL换成本地的压缩包URL就可以使用了

好的,感谢,请问还有其他的不用开启服务的方式吗?

guoshengCS commented 2 years ago

或者可以试下将这里 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L90 dl_dir改成本地目录

Chucy2020 commented 2 years ago

或者可以试下将这里 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L90 dl_dir改成本地目录

好的,明白,感谢。