大佬，reward_model的训练是不是也不支持chatglm。

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 452 forks source link

Closed LanShanPi closed 5 months ago

LanShanPi commented 6 months ago

Please provide a clear and concise description of what the question is.

LanShanPi commented 6 months ago

我在用chatglm3训练的时候，在下面这个图中绿色箭头的位置会出现维度问题。

不知道是不是数据处理问题，还是模型支不支持的问题。

LanShanPi commented 6 months ago

我在reward_modeling.py中加了关于chatglm相关的MODEL_CLASSES内容

shibing624 commented 6 months ago

reward_model 不支持chatglm