Open yucc-leon opened 7 months ago
+1 encounter the same issue here
+1 encounter the same issue here
@halfrot huggingface_hub版本是多少,请尝试最新版这个问题应该修复了
huggingface_hub 0.22.2 是最新版的
我曾经遇到过类似的问题 可能是压缩包解码的问题,通过pip install py7zr解决
大佬有新进展吗? @padeoe
我的datasets版本是2.19.2 hub版本是2.23.0。 加载的数据集是 EleutherAI/drop,也碰到同样的问题
已经有一些进展了,还在看
已经有一些进展了,还在看
感谢大佬的无私奉献,你们的工作对国内AI研究起到了很大的帮助~
pip install py7zr
此法并不能解决该问题
请参考https://github.com/huggingface/datasets/issues/6760这个issue 把datasets换成2.14.6即可解决 :-)
另一种报错:加载数据集 code_search_net
时,子集下载和校验过程中仍提示超时
Downloading builder script: 8.44kB [00:00, 50.2MB/s]
Downloading readme: 12.9kB [00:00, 73.3MB/s]
Downloading data: 100%|███████████████████████████████████████████████████████████████████| 941M/941M [00:39<00:00, 23.6MB/s]
---------------------------------------------------------------------------
TimeoutError Traceback (most recent call last)
....
TimeoutError: The read operation timed out
The above exception was the direct cause of the following exception:
......
ReadTimeout: HTTPSConnectionPool(host='cdn-lfs.hf-mirror.com', port=443): Read timed out. (read timeout=100.0)
降级到 2.14.6 及更低版本也可暂时解决此问题。
所以是墙的问题?同降级能解决
dataset = load_dataset("lighteval/MATH")
同遇到此问题,好像有load script的数据集极大概率会遇到此问题,请问大家有什么好的解决方案嘛,谢谢
环境如下: datasets 2.21.0 transformers 4.44.2 huggingface-hub 0.24.5
update: 只降级datasets到2.14.6可临时解决问题~~
我曾经遇到过类似的问题 可能是压缩包解码的问题,通过pip install py7zr解决
这个对我没用
2024-10-01 仍然遇到此问题 datasets下降版本至2.14.6可暂时解决此问题, 但是出现了trust_remote_code关键字不兼容(似乎新版本加入)
随着datasets的不断更新, 可能分歧会越来越大, 希望能尽快解决, 也希望以上信息能有所帮助.
datasets 3.0.1 版本,问题依旧
10月20日,问题依旧,datasets 3.0.1版本已更新batch函数,但目前2.14.6无此函数
update: 新版trl已经限制datasets最低版本
干净的环境,Python=3.11,只安装了 datasets(==2.18.0)
会提示
官方开发人员无法复现,由于该错误仅出现在读取数据文件前向服务器请求数据集信息的阶段,因此猜测问题出在镜像上(参考https://github.com/huggingface/datasets/issues/6760 中的反馈)