shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.17k stars 483 forks source link

ChatGLM是不是无法做RM和RL的训练? #107

Open Leekinxun opened 1 year ago

Leekinxun commented 1 year ago

Describe the Question

Please provide a clear and concise description of what the question is. chatglm2是不是做不了PPO相关的训练,我在rm模型中用了bert训练,但是无法合并参数,同时第四部的rl训练也显示ChatGLM2模型没有AutoModelForCausalLMWithValueHead,请问这种情况是不是只能换模型了

shibing624 commented 1 year ago

是,chatglm不是标准CausalLM

Leekinxun commented 1 year ago

是,chatglm不是标准CausalLM

明白,感谢!

shawnlihst commented 11 months ago

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

C929-x commented 11 months ago

是,chatglm不是标准CausalLM

我看B站有人这样做

valkryhx commented 11 months ago

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持 建议先用dpo跑,简单些。

C929-x commented 11 months ago

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持 建议先用dpo跑,简单些。

请问chatglm支持吗,1版本的,不是chatglm2

valkryhx commented 11 months ago

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异,跟生成文本的条件概率有关系,跟模型本身关系不大,可以试试trl的代码或者本项目的代码替换模型。

C929-x commented 10 months ago

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异,跟生成文本的条件概率有关系,跟模型本身关系不大,可以试试trl的代码或者本项目的代码替换模型。

好的好的十分感谢