Closed Cascol-Chen closed 1 year ago
下面链接是我们使用的Dataset,在config里有写明
https://github.com/dandelionsllm/pandallm/blob/main/data/collators/zh_instruct.py#L110C1-L136
可以按照这个Dataset处理你的数据,总体来说可以用jsonline存储,每一行是一个json结构体。如果你是instruction-response pair的数据,可以使用instruction
和output
两个filed来做conditional generation。如果你是pure text,希望做普通的causal LM,可以直接存到text
这个key里。
请问多个数据集要以什么树状结构进行存储呢,直接把用于训练的5个数据集压缩包解压到相同目录下就可以了吗
不同的数据集均处理成上述结构之一,放在同一个目录下就行,config里写文件夹的path,glob会处理匹配(可以自己改glob的匹配方式)
好的谢谢作者,我尝试一下
在处理如百科数据时存在不知道该将title还是desc转为inputs的问题,请问有相关的转化脚本吗
我希望从零训练panda,做一些拓展性实验,然而项目readme中并没有介绍该以什么结构存储训练数据。请问可以补充相关内容吗