fastnlp / CPT

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
481 stars 70 forks source link

你好,想请教下微调中dev.json数据的结构问题? #52

Closed ImmortalZ closed 1 year ago

ImmortalZ commented 2 years ago
image

比较奇怪为啥 article 中的是 [[x1,x2], [y1, y2]] 这样的字符串呢?

小白,看微调代码这里有点懵逼

choosewhatulike commented 2 years ago

这个数据集(adgen)目标就是给一些关键词生成广告语。article和summarization分别对应模型的输入和输出,这是为了不同数据集都能兼容一套生成代码,你也可以命名为input,output

ImmortalZ commented 2 years ago

这个数据集(adgen)目标就是给一些关键词生成广告语。article和summarization分别对应模型的输入和输出,这是为了不同数据集都能兼容一套生成代码,你也可以命名为input,output

@choosewhatulike 感谢解答,还想请教下,如果我想自定义数据微调,也是需要构造 [[x1,x2], [y1, y2]] 这样的字符串,还是article用普通的一句话这种也行的呢?(我看微调代码没有找到对 [[x1,x2], [y1, y2]] 这样的字符串 结构的处理,似乎普通的一句话也行)