shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.34k stars 499 forks source link

chatglm-6b的rm和rl阶段问题 #86

Closed daimazz1 closed 1 year ago

daimazz1 commented 1 year ago

您好,我是用chatglm-6b跑第三阶段rm时报错,我看reward_modeling.py文件里没有处理chatglm类的model,问一下现在是rm、rl阶段没办法跑chatglm模型吗,近期会出这两阶段chatglm模型的测试吗,如果只使用pt、sft、阶段训练针对领域数据的话对模型的影响大吗?

shibing624 commented 1 year ago

只用SFT就可以,其他方法是增分项