Closed Yujiaquan2718 closed 4 weeks ago
如果你使用下面的代码加载过一次数据集:
from datasets import load_dataset
datasets = load_dataset("Rosykunai/SGEMM_GPU_performance")
这个数据集会被缓存到C:\Users\{username}\.cache\huggingface\datasets
下的Rosykunai___sgemm_gpu_performance
文件夹中
之后再使用load_dataset("Rosykunai/SGEMM_GPU_performance")
时,会先从缓存中检索这个数据集.
如果你想从其它路径读取,可以先把这个数据集存入其它路径:
datasets.save_to_disk("data_path")
# 之后必须通过load_from_disk()读取!
datasets = load_from_disk("data_path")
也可以在一开始指定另外的缓存路径:
datasets = load_dataset("Rosykunai/SGEMM_GPU_performance", cache_dir="data_path")
# 之后读取时也需要指定cache_dir
为什么需要读取这么久
这个速度是正常的
成功运行程序后,因为每次加载数据集的时间都比较长,所以想从缓存中加载数据集。但是地址“C:\Users{username}.cache\huggingface\datasets”存在“Directory is neither a
Dataset
directory nor aDatasetDict
directory.”的报错,我发现“C:\Users{username}.cache\huggingface\datasets”下还有多级目录,但是各种尝试后都不对。请为应该给出的正确地址是什么?