由于训练数据的预处理存在不确定性，请问可以进一步分享处理代码吗

Cascol-Chen commented 1 year ago

代码中提供了数据加载相关的代码

https://github.com/dandelionsllm/pandallm/blob/main/data/collators/zh_instruct.py#L110C1-L136

然而针对维基百科，新闻语料，百科问答，社区问答，翻译语料的数据预处理不太明确。例如百科问答中各数据由category、title、desc、answer字段组成，请问哪些字段该合并成inputs呢

SparkJiao commented 1 year ago

title和category等meta data都是不需要的。

对于百科类和新闻类，我们直接当成普通的Causal LM去做。

对于问答类，问题是input，answer是output，可选的是人工添加手工prompt，比如请阅读文章回答问题：。可选的prompt可以从FLAN collection里参考一部分。

翻译语料instruction是将以下中文/英文翻译为英文/中文。input是 source lang, output 是 target lang.

我们之后会同步代码上来，最近需要赶论文。谢谢关注。

Cascol-Chen commented 1 year ago

好的谢谢作者，辛苦了。

dandelionsllm / pandallm