如果要重新训练panda，请问数据集应该以什么结构存储呢

dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目，致力于大模型时代探索整个技术栈，旨在推动中文自然语言处理领域的创新和合作。

Apache License 2.0

1.06k stars 91 forks source link

如果要重新训练panda，请问数据集应该以什么结构存储呢 #28

Closed Cascol-Chen closed 1 year ago

Cascol-Chen commented 1 year ago

我希望从零训练panda，做一些拓展性实验，然而项目readme中并没有介绍该以什么结构存储训练数据。请问可以补充相关内容吗

SparkJiao commented 1 year ago

下面链接是我们使用的Dataset，在config里有写明

https://github.com/dandelionsllm/pandallm/blob/main/data/collators/zh_instruct.py#L110C1-L136

可以按照这个Dataset处理你的数据，总体来说可以用jsonline存储，每一行是一个json结构体。如果你是instruction-response pair的数据，可以使用instruction和output两个filed来做conditional generation。如果你是pure text，希望做普通的causal LM，可以直接存到text这个key里。

Cascol-Chen commented 1 year ago

请问多个数据集要以什么树状结构进行存储呢，直接把用于训练的5个数据集压缩包解压到相同目录下就可以了吗

SparkJiao commented 1 year ago

不同的数据集均处理成上述结构之一，放在同一个目录下就行，config里写文件夹的path，glob会处理匹配（可以自己改glob的匹配方式）

Cascol-Chen commented 1 year ago

好的谢谢作者，我尝试一下

Cascol-Chen commented 1 year ago

在处理如百科数据时存在不知道该将title还是desc转为inputs的问题，请问有相关的转化脚本吗