Closed gg22mm closed 1 year ago
大老看了您的微调方式,有点疑问,您的四个阶段是在哪里体现出来的? 如下:
第一阶段:PT(Continue PreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识 [ 第二阶段:SFT(Supervised Fine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图 第三阶段:RM(Reward Model)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好,主要是"HHH"原则 第四阶段:RL(Reinforcement Learning)(RLHF)基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本
我没看到例子哪里需要训练4次的呢? https://github.com/shibing624/textgen#%E8%AE%AD%E7%BB%83-chatglm-6b-%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B
你项目看差了吧?https://github.com/shibing624/MedicalGPT
谢谢~~
大老看了您的微调方式,有点疑问,您的四个阶段是在哪里体现出来的? 如下:
我没看到例子哪里需要训练4次的呢? https://github.com/shibing624/textgen#%E8%AE%AD%E7%BB%83-chatglm-6b-%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B