Closed xxcoco763 closed 10 months ago
你好,准备复现baichuan的lora训练,但是有点困惑,在模型介绍时说明模型在医疗表现上较为领先,但是我看训练数据集主要是gpt4的通用数据集,这里是否有参杂本项目中医疗的数据集呢?如果有,比例大概是多少啊?谢谢!
10:1
你好,我想请教一下。 (1)10:1。通用10,还是医疗10? (2)如果通用是10,那么shibing624/sharegpt_gpt4仅有10w条数据,而shibing624/medical有206w条数据。是否通用领域训练数据还加入了别的数据?分别是什么呢?
(3)10:1,指的是条数 还是token数?
条数
你好,准备复现baichuan的lora训练,但是有点困惑,在模型介绍时说明模型在医疗表现上较为领先,但是我看训练数据集主要是gpt4的通用数据集,这里是否有参杂本项目中医疗的数据集呢?如果有,比例大概是多少啊?谢谢!