mymusise / ChatGLM-Tuning

基于ChatGLM-6B + LoRA的Fintune方案
MIT License
3.71k stars 444 forks source link

add RLHF #189

Open mymusise opened 1 year ago

mymusise commented 1 year ago
  1. add reward model
  2. add ppo trainer