指令集微调这个只是ChatGPT训练的第一步，后续的奖励函数和基于RLHF的训练并没有做，作者是觉得这个后续过程不太重要吗？ - Githubissues

SCIR-HI / Med-ChatGLM

Repo for Chinese Medical ChatGLM 基于中文医学知识的ChatGLM指令微调

Apache License 2.0

961 stars 153 forks source link

指令集微调这个只是ChatGPT训练的第一步，后续的奖励函数和基于RLHF的训练并没有做，作者是觉得这个后续过程不太重要吗？ #3

Closed TestNLP closed 1 year ago

thinksoso commented 1 year ago

根据现有的参考，我们认为RLHF优先级不如优质的指令微调。