datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Apache License 2.0
6.08k stars 748 forks source link

数据集如何构造? #161

Open chopin1998 opened 2 weeks ago

chopin1998 commented 2 weeks ago

对于数据集,想请教一下, 比如 { "instruction": "你是谁?", "input": "", "output": "我是甄嬛,家父是大理寺少卿甄远道。" },

image

为什么 是 instrucion是 “你是谁”, 而 input 是 空呢?

//// 如果我想从一本书籍里,提取数据集, 应该如何做?

//// 另外huanhuan.json里有很多重复的 instruction, 比如“你好” 和"你是谁" 这是为什么?是故意的吗?