Closed Chucy2020 closed 2 years ago
这个datasets是一个python工具包,可以直接pip install 一下
这个datasets是一个python工具包,可以直接pip install 一下
请问这个能加载本地json文件吗?还是只能加载arrow格式文件?我用该函数加载本地的robust的json文件报错,因为下载的robust文件是json格式,请问怎么处理?
https://huggingface.co/docs/datasets/loading#json json的加载可以看这里的文档
https://huggingface.co/docs/datasets/loading#json json的加载可以看这里的文档
感谢你的解答,但是这个json嵌套格式和Dureader_Robust的格式不一样,直接加载还是会报错,请问你们代码这部分是怎么加载的? robust格式如下:
是您那边的数据格式和dureader_robust的一样是吗
是您那边的数据格式和dureader_robust的一样是吗
是的,我就是用的dureader_robust数据集,跑的你们提供的代码,只是我服务器无法联网,没法下载数据,只能手动下载下来,但是加载本地的数据集总是报错。我该采用什么方式能跑通你们提供的案例,并且可以跑其他的本地和dureader_robust数据格式一样的阅读理解数据集?
这种情况的话也有其他处理办法,比较直接的一种是您那边可以本地用python -m http.server
启一个http server,然后将 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L34 这里的URL换成本地的压缩包URL就可以使用了
这种情况的话也有其他处理办法,比较直接的一种是您那边可以本地用
python -m http.server
启一个http server,然后将 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L34 这里的URL换成本地的压缩包URL就可以使用了
好的,感谢,请问还有其他的不用开启服务的方式吗?
或者可以试下将这里 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/datasets/hf_datasets/dureader_robust.py#L90 dl_dir改成本地目录
好的,明白,感谢。
欢迎您反馈PaddleNLP使用问题,非常感谢您对PaddleNLP的贡献! 在留下您的问题时,辛苦您同步提供如下信息:
如还有问题可以到 PaddleNLP github 主页面的社区交流扫描加入微信群,相关值班同学将会为您解答!
您好,最近在跑阅读理解的案例,发现robust的数据通过load_dataset调用后是arrow格式,且找不到下图中的datasets代码文件。麻烦解答一下。