dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
Apache License 2.0
1.06k stars 91 forks source link

如果要重新训练panda,请问数据集应该以什么结构存储呢 #28

Closed Cascol-Chen closed 1 year ago

Cascol-Chen commented 1 year ago

我希望从零训练panda,做一些拓展性实验,然而项目readme中并没有介绍该以什么结构存储训练数据。请问可以补充相关内容吗

SparkJiao commented 1 year ago

下面链接是我们使用的Dataset,在config里有写明

https://github.com/dandelionsllm/pandallm/blob/main/data/collators/zh_instruct.py#L110C1-L136

可以按照这个Dataset处理你的数据,总体来说可以用jsonline存储,每一行是一个json结构体。如果你是instruction-response pair的数据,可以使用instructionoutput两个filed来做conditional generation。如果你是pure text,希望做普通的causal LM,可以直接存到text这个key里。

Cascol-Chen commented 1 year ago

请问多个数据集要以什么树状结构进行存储呢,直接把用于训练的5个数据集压缩包解压到相同目录下就可以了吗

SparkJiao commented 1 year ago

不同的数据集均处理成上述结构之一,放在同一个目录下就行,config里写文件夹的path,glob会处理匹配(可以自己改glob的匹配方式)

Cascol-Chen commented 1 year ago

好的谢谢作者,我尝试一下

Cascol-Chen commented 1 year ago

在处理如百科数据时存在不知道该将title还是desc转为inputs的问题,请问有相关的转化脚本吗