Open lucasjinreal opened 1 year ago
belle的数据我们上次看过多轮的,里边的数据重复率很高,比如说35%的数据都是“生成一个xx”。我们这边的经验是数据质量大于数据数量,因此在有限的硬件条件下我们没有加入这些数据。belle的单轮instruction确实还可以,可以先自己尝试和多轮对话混合在一起训练。
@LZY-the-boys 请问大佬,多轮会话的数据集是否决定了模型对话的能力? 还有一个问题是,这个仓库里面的多轮对话数据集的格式是什么样的?因为我在alpaca数据集里没有看到多轮对话的格式。 非常感谢!
@DENGFEIYANG 可以看这里,https://huggingface.co/datasets/Chinese-Vicuna/instruct_chat_50k.jsonl
BELLE这个数据集比较大,楼主是否考虑加到chat里面训练,(最新的有3.5M)