shibing624 / textgen

TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。
Apache License 2.0
938 stars 109 forks source link

大老看了您的微调方式,有点疑问,您的三个阶段是在哪里体现出来的? #55

Closed gg22mm closed 1 year ago

gg22mm commented 1 year ago

大老看了您的微调方式,有点疑问,您的四个阶段是在哪里体现出来的? 如下:

第一阶段:PT(Continue PreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识 [

第二阶段:SFT(Supervised Fine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图          

第三阶段:RM(Reward Model)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好,主要是"HHH"原则

第四阶段:RL(Reinforcement Learning)(RLHF)基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本

我没看到例子哪里需要训练4次的呢? https://github.com/shibing624/textgen#%E8%AE%AD%E7%BB%83-chatglm-6b-%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B

shibing624 commented 1 year ago

你项目看差了吧?https://github.com/shibing624/MedicalGPT

  1. textgen库的定位是文本生成微调训练;
  2. MedicalGPT是医疗专项模型训练
gg22mm commented 1 year ago

谢谢~~