baichuan lora模型的数据配比

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

3.24k stars 492 forks source link

Closed xxcoco763 closed 10 months ago

xxcoco763 commented 11 months ago

你好，准备复现baichuan的lora训练，但是有点困惑，在模型介绍时说明模型在医疗表现上较为领先，但是我看训练数据集主要是gpt4的通用数据集，这里是否有参杂本项目中医疗的数据集呢？如果有，比例大概是多少啊？谢谢！

shibing624 commented 10 months ago

10:1

liushiton commented 4 months ago

你好，我想请教一下。（1）10:1。通用10，还是医疗10？（2）如果通用是10，那么shibing624/sharegpt_gpt4仅有10w条数据，而shibing624/medical有206w条数据。是否通用领域训练数据还加入了别的数据？分别是什么呢？

liushiton commented 4 months ago

（3）10:1，指的是条数还是token数？

shibing624 commented 4 months ago

条数