dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
Apache License 2.0
1.07k stars 91 forks source link

如何将COIG数据集处理为instruction tuning的格式 #24

Closed HuihuiChyan closed 1 year ago

HuihuiChyan commented 1 year ago

如题,COIG一共由六个文件组成,每个文件的输入都不太一样。特别的,对于counterfactual_correction_multi_round_chat这个文件而言,会处理成什么形式呢?这个文件的哪一部分作为了instruction tuning的输入和输出呢? image

SparkJiao commented 1 year ago

I have udpated with a notebook for processing COIG data:

https://github.com/dandelionsllm/pandallm/blob/main/unify_format.ipynb