Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 422 forks source link

考虑将BELLE的3.5M 数据加入chat数据吗? #197

Open lucasjinreal opened 1 year ago

lucasjinreal commented 1 year ago

BELLE这个数据集比较大,楼主是否考虑加到chat里面训练,(最新的有3.5M)

LZY-the-boys commented 1 year ago

belle的数据我们上次看过多轮的,里边的数据重复率很高,比如说35%的数据都是“生成一个xx”。我们这边的经验是数据质量大于数据数量,因此在有限的硬件条件下我们没有加入这些数据。belle的单轮instruction确实还可以,可以先自己尝试和多轮对话混合在一起训练。

DENGFEIYANG commented 1 year ago

@LZY-the-boys 请问大佬,多轮会话的数据集是否决定了模型对话的能力? 还有一个问题是,这个仓库里面的多轮对话数据集的格式是什么样的?因为我在alpaca数据集里没有看到多轮对话的格式。 非常感谢!

Facico commented 1 year ago

@DENGFEIYANG 可以看这里,https://huggingface.co/datasets/Chinese-Vicuna/instruct_chat_50k.jsonl