SCIR-HI / Med-ChatGLM

Repo for Chinese Medical ChatGLM 基于中文医学知识的ChatGLM指令微调
Apache License 2.0
961 stars 153 forks source link

指令集微调这个只是ChatGPT训练的第一步,后续的奖励函数和基于RLHF的训练并没有做,作者是觉得这个后续过程不太重要吗? #3

Closed TestNLP closed 1 year ago

thinksoso commented 1 year ago

根据现有的参考,我们认为RLHF优先级不如优质的指令微调。