chatglm-6b的rm和rl阶段问题

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

3.34k stars 499 forks source link

chatglm-6b的rm和rl阶段问题 #86

Closed daimazz1 closed 1 year ago

daimazz1 commented 1 year ago

您好，我是用chatglm-6b跑第三阶段rm时报错，我看reward_modeling.py文件里没有处理chatglm类的model，问一下现在是rm、rl阶段没办法跑chatglm模型吗，近期会出这两阶段chatglm模型的测试吗，如果只使用pt、sft、阶段训练针对领域数据的话对模型的影响大吗？

shibing624 commented 1 year ago

只用SFT就可以，其他方法是增分项