Closed x54-729 closed 1 year ago
dureader_robust 这个数据集当前存在两种使用方式,一种是使用 datasets
库来加载,如下:
from datasets import load_dataset
train_dataset, val_dataset = load_dataset("PaddlePaddle/dureader_robust", split=("train", "validation"))
一种是使用paddlenlp.datasets
来加载,使用的参数会不太一样
from paddlenlp.datasets import load_dataset
train_dataset, val_dataset = load_dataset("dureader_robust", splits=("train", "dev"))
当前更推荐第一种,后面也会主要使用第一种,也在做example的迁移工作,文档相关内容暂时还未迁移完成,抱歉造成困扰
不同数据集加载后得到的dataset.data类型不同
这个也是因为使用"PaddlePaddle/dureader_robust"
加载时实际上会使用datasets
库来加载,而使用"dureader_robust"
时会使用paddlenlp内的来加载,返回的数据类型会不太一样
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
您好!最近我在使用paddlenlp运行官网tutorial的内容,版本为2.3.3,目前遇到了几个问题:
load_dataset
的splits
参数:报错:
看了一下源代码似乎是因为没有判断hf_datasets为tuple的情况?
不同数据集加载后得到的dataset.data类型不同
输出:
这样会产生一个问题,当我试着运行阅读理解任务的tutorial时:
dureader_robust
数据集,那么会无法运行compute_prediction
函数,因为dataloader.dataset.data
是一个列表,而compute_prediction
函数既要从examples
参数中找到键id
,又要对其进行遍历;同时compute_prediction
这个函数的文档指出examples
应该是一个列表,和函数内容矛盾;如果我采用
PaddlePaddle/dureader_robust
数据集,又会出现新的问题:train_dataset.map
的num_workers
参数,处理数据的函数prepare_train_features
的参数examples
是<class 'datasets.arrow_dataset.Dataset'>
num_workers
多线程想加快速度,则examples
是一个list
,和前面不一致;如果我设置了
num_workers
多线程,并且返回了一个字典,那么new_data
成员会成为数据的键的列表;