Closed wyxscir closed 9 months ago
应该是可以用huggingface的datasets类,如果你是下载到指定目录 --save_dir
中,只需要在调用的时候使用绝对路径即可,参考readme中的介绍。
例如 --save_dir ./hf_hub
,那么:
from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
在没有网的机器上使用,只需要将保存数据集的文件目录复制过去使用即可。
应该是可以用huggingface的datasets类,如果你是下载到指定目录
--save_dir
中,只需要在调用的时候使用绝对路径即可,参考readme中的介绍。例如
--save_dir ./hf_hub
,那么:from datasets import load_dataset dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
在没有网的机器上使用,只需要将保存数据集的文件目录复制过去使用即可。
您的工具在能上网的机器上使用数据集非常流畅(就像您这两行脚本使用datasets一样),但是在不能上网的机器上copy过去的数据集文件并不能直接这两行脚本使用datasets,
我试了一个方法: 在能上网的机器上先转换一下数据集:
from datasets import load_dataset
dataset = load_dataset("./hf_hub/datasets--lambdalabs--pokemon-blip-captions")
# 额外保存一下
dataset.save_to_disk("./step2_dataset/pokemon")
然后在不能上网的机器上:
from datasets import load_from_disk
dataset = load_from_disk("./step2_dataset/pokemon")
就可以了
最后感谢您的工具!
比如我用本工具下载了数据集 lambdalabs/pokemon-blip-captions,我应该怎样使用这个数据集呢?是否只能自己定义数据处理,没法用huggingface的datasets类?(我在一台能上网的机器上下载的数据集,在另一台不能上网的机器上运行程序)