考虑将BELLE的3.5M 数据加入chat数据吗？

Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案，结构参考alpaca

https://github.com/Facico/Chinese-Vicuna

Apache License 2.0

4.14k stars 422 forks source link

Open lucasjinreal opened 1 year ago

lucasjinreal commented 1 year ago

BELLE这个数据集比较大，楼主是否考虑加到chat里面训练，（最新的有3.5M）

LZY-the-boys commented 1 year ago

belle的数据我们上次看过多轮的，里边的数据重复率很高，比如说35%的数据都是“生成一个xx”。我们这边的经验是数据质量大于数据数量，因此在有限的硬件条件下我们没有加入这些数据。belle的单轮instruction确实还可以，可以先自己尝试和多轮对话混合在一起训练。

DENGFEIYANG commented 1 year ago

@LZY-the-boys 请问大佬，多轮会话的数据集是否决定了模型对话的能力？还有一个问题是，这个仓库里面的多轮对话数据集的格式是什么样的？因为我在alpaca数据集里没有看到多轮对话的格式。非常感谢！

Facico commented 1 year ago