Closed Cascol-Chen closed 1 year ago
title和category等meta data都是不需要的。
对于百科类和新闻类,我们直接当成普通的Causal LM去做。
对于问答类,问题是input
,answer
是output
,可选的是人工添加手工prompt,比如请阅读文章回答问题:
。可选的prompt可以从FLAN collection里参考一部分。
翻译语料instruction是将以下中文/英文翻译为英文/中文
。input
是 source lang, output
是 target lang.
我们之后会同步代码上来,最近需要赶论文。谢谢关注。
好的谢谢作者,辛苦了。
代码中提供了数据加载相关的代码
然而针对维基百科,新闻语料,百科问答,社区问答,翻译语料的数据预处理不太明确。例如百科问答中各数据由category、title、desc、answer字段组成,请问哪些字段该合并成inputs呢