ChatGLM是不是无法做RM和RL的训练？

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

3.17k stars 483 forks source link

ChatGLM是不是无法做RM和RL的训练？ #107

Open Leekinxun opened 1 year ago

Leekinxun commented 1 year ago

Describe the Question

Please provide a clear and concise description of what the question is. chatglm2是不是做不了PPO相关的训练，我在rm模型中用了bert训练，但是无法合并参数，同时第四部的rl训练也显示ChatGLM2模型没有AutoModelForCausalLMWithValueHead，请问这种情况是不是只能换模型了

shibing624 commented 1 year ago

是，chatglm不是标准CausalLM

Leekinxun commented 1 year ago

是，chatglm不是标准CausalLM

明白，感谢！

shawnlihst commented 11 months ago

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

C929-x commented 11 months ago

是，chatglm不是标准CausalLM

我看B站有人这样做

valkryhx commented 11 months ago

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持建议先用dpo跑，简单些。

C929-x commented 11 months ago

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持建议先用dpo跑，简单些。

请问chatglm支持吗，1版本的，不是chatglm2

valkryhx commented 11 months ago

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异，跟生成文本的条件概率有关系，跟模型本身关系不大，可以试试trl的代码或者本项目的代码替换模型。

C929-x commented 10 months ago

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异，跟生成文本的条件概率有关系，跟模型本身关系不大，可以试试trl的代码或者本项目的代码替换模型。

好的好的十分感谢