dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
Apache License 2.0
1.07k stars 91 forks source link

由于训练数据的预处理存在不确定性,请问可以进一步分享处理代码吗 #29

Closed Cascol-Chen closed 1 year ago

Cascol-Chen commented 1 year ago

代码中提供了数据加载相关的代码

https://github.com/dandelionsllm/pandallm/blob/main/data/collators/zh_instruct.py#L110C1-L136

然而针对维基百科,新闻语料,百科问答,社区问答,翻译语料的数据预处理不太明确。例如百科问答中各数据由category、title、desc、answer字段组成,请问哪些字段该合并成inputs呢

SparkJiao commented 1 year ago

title和category等meta data都是不需要的。

对于百科类和新闻类,我们直接当成普通的Causal LM去做。

对于问答类,问题是inputansweroutput,可选的是人工添加手工prompt,比如请阅读文章回答问题:。可选的prompt可以从FLAN collection里参考一部分。

翻译语料instruction是将以下中文/英文翻译为英文/中文input是 source lang, output 是 target lang.

我们之后会同步代码上来,最近需要赶论文。谢谢关注。

Cascol-Chen commented 1 year ago

好的谢谢作者,辛苦了。