Smadx / USTC-ML24-Fall

18 stars 12 forks source link

[lab1]从缓存中读取数据集的正确地址应该是什么? #4

Closed Yujiaquan2718 closed 4 weeks ago

Yujiaquan2718 commented 1 month ago

成功运行程序后,因为每次加载数据集的时间都比较长,所以想从缓存中加载数据集。但是地址“C:\Users{username}.cache\huggingface\datasets”存在“Directory is neither a Dataset directory nor a DatasetDict directory.”的报错,我发现“C:\Users{username}.cache\huggingface\datasets”下还有多级目录,但是各种尝试后都不对。请为应该给出的正确地址是什么?

Smadx commented 1 month ago

如果你使用下面的代码加载过一次数据集:

from datasets import load_dataset

datasets = load_dataset("Rosykunai/SGEMM_GPU_performance")

这个数据集会被缓存到C:\Users\{username}\.cache\huggingface\datasets下的Rosykunai___sgemm_gpu_performance文件夹中

之后再使用load_dataset("Rosykunai/SGEMM_GPU_performance")时,会先从缓存中检索这个数据集.

如果你想从其它路径读取,可以先把这个数据集存入其它路径:

datasets.save_to_disk("data_path")
# 之后必须通过load_from_disk()读取!
datasets = load_from_disk("data_path")

也可以在一开始指定另外的缓存路径:

datasets = load_dataset("Rosykunai/SGEMM_GPU_performance", cache_dir="data_path")
# 之后读取时也需要指定cache_dir
woqinmian commented 1 month ago

屏幕截图 2024-09-26 205318 为什么需要读取这么久

Smadx commented 1 month ago

这个速度是正常的