LetheSec / HuggingFace-Download-Accelerator

利用HuggingFace的官方下载工具从镜像网站进行高速下载。
764 stars 70 forks source link

下载好的数据集怎么使用呢? #7

Closed wyxscir closed 9 months ago

wyxscir commented 9 months ago

比如我用本工具下载了数据集 lambdalabs/pokemon-blip-captions,我应该怎样使用这个数据集呢?是否只能自己定义数据处理,没法用huggingface的datasets类?(我在一台能上网的机器上下载的数据集,在另一台不能上网的机器上运行程序)

image

LetheSec commented 9 months ago

应该是可以用huggingface的datasets类,如果你是下载到指定目录 --save_dir 中,只需要在调用的时候使用绝对路径即可,参考readme中的介绍。

例如 --save_dir ./hf_hub,那么:

from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")

在没有网的机器上使用,只需要将保存数据集的文件目录复制过去使用即可。

wyxscir commented 9 months ago

应该是可以用huggingface的datasets类,如果你是下载到指定目录 --save_dir 中,只需要在调用的时候使用绝对路径即可,参考readme中的介绍。

例如 --save_dir ./hf_hub,那么:

from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")

在没有网的机器上使用,只需要将保存数据集的文件目录复制过去使用即可。

您的工具在能上网的机器上使用数据集非常流畅(就像您这两行脚本使用datasets一样),但是在不能上网的机器上copy过去的数据集文件并不能直接这两行脚本使用datasets,

我试了一个方法: 在能上网的机器上先转换一下数据集:

from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
# 额外保存一下
dataset.save_to_disk("./step2_dataset/pokemon")

然后在不能上网的机器上:

from datasets import load_from_disk
dataset = load_from_disk("./step2_dataset/pokemon")

就可以了

最后感谢您的工具!