大老看了您的微调方式，有点疑问，您的三个阶段是在哪里体现出来的？

gg22mm commented 1 year ago

大老看了您的微调方式，有点疑问，您的四个阶段是在哪里体现出来的？如下：

第一阶段：PT(Continue PreTraining)增量预训练，在海量领域文档数据上二次预训练GPT模型，以注入领域知识 [

第二阶段：SFT(Supervised Fine-tuning)有监督微调，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图          

第三阶段：RM(Reward Model)奖励模型建模，构造人类偏好排序数据集，训练奖励模型，用来对齐人类偏好，主要是"HHH"原则

第四阶段：RL(Reinforcement Learning)(RLHF)基于人类反馈的强化学习(RLHF)，用奖励模型来训练SFT模型，生成模型使用奖励或惩罚来更新其策略，以便生成更高质量、更符合人类偏好的文本

我没看到例子哪里需要训练4次的呢？ https://github.com/shibing624/textgen#%E8%AE%AD%E7%BB%83-chatglm-6b-%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B

shibing624 commented 1 year ago

你项目看差了吧？https://github.com/shibing624/MedicalGPT

textgen库的定位是文本生成微调训练；
MedicalGPT是医疗专项模型训练

gg22mm commented 1 year ago

谢谢~~

shibing624 / textgen

大老看了您的微调方式，有点疑问，您的三个阶段是在哪里体现出来的？ #55