下载好的数据集怎么使用呢？

wyxscir commented 9 months ago

比如我用本工具下载了数据集 lambdalabs/pokemon-blip-captions，我应该怎样使用这个数据集呢？是否只能自己定义数据处理，没法用huggingface的datasets类？（我在一台能上网的机器上下载的数据集，在另一台不能上网的机器上运行程序）

LetheSec commented 9 months ago

应该是可以用huggingface的datasets类，如果你是下载到指定目录 --save_dir 中，只需要在调用的时候使用绝对路径即可，参考readme中的介绍。

例如 --save_dir ./hf_hub，那么：

from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")

在没有网的机器上使用，只需要将保存数据集的文件目录复制过去使用即可。

wyxscir commented 9 months ago

应该是可以用huggingface的datasets类，如果你是下载到指定目录 --save_dir 中，只需要在调用的时候使用绝对路径即可，参考readme中的介绍。

例如 --save_dir ./hf_hub，那么：
from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
在没有网的机器上使用，只需要将保存数据集的文件目录复制过去使用即可。

您的工具在能上网的机器上使用数据集非常流畅（就像您这两行脚本使用datasets一样），但是在不能上网的机器上copy过去的数据集文件并不能直接这两行脚本使用datasets，

我试了一个方法：在能上网的机器上先转换一下数据集：

from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
# 额外保存一下
dataset.save_to_disk("./step2_dataset/pokemon")

然后在不能上网的机器上：

from datasets import load_from_disk
dataset = load_from_disk("./step2_dataset/pokemon")

就可以了

最后感谢您的工具！

LetheSec / HuggingFace-Download-Accelerator

下载好的数据集怎么使用呢？ #7