shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.24k stars 492 forks source link

baichuan lora模型的数据配比 #247

Closed xxcoco763 closed 10 months ago

xxcoco763 commented 11 months ago

你好,准备复现baichuan的lora训练,但是有点困惑,在模型介绍时说明模型在医疗表现上较为领先,但是我看训练数据集主要是gpt4的通用数据集,这里是否有参杂本项目中医疗的数据集呢?如果有,比例大概是多少啊?谢谢!

shibing624 commented 10 months ago

10:1

liushiton commented 4 months ago

你好,我想请教一下。 (1)10:1。通用10,还是医疗10? (2)如果通用是10,那么shibing624/sharegpt_gpt4仅有10w条数据,而shibing624/medical有206w条数据。是否通用领域训练数据还加入了别的数据?分别是什么呢?

liushiton commented 4 months ago

(3)10:1,指的是条数 还是token数?

shibing624 commented 4 months ago

条数