关于RLHF的问题 - Githubissues

OpenMOSS / MOSS

An open-source tool-augmented conversational language model from Fudan University

https://txsun1997.github.io/blogs/moss.html

Apache License 2.0

11.93k stars 1.15k forks source link

Open dongdongrj opened 1 year ago

dongdongrj commented 1 year ago

请问这些微调模型都是通过SFT微调得来的吗？关于RM和PPO阶段的微调，是没有用到呢？还是没有开源呢？如果是没有用到RLHF，仅仅只是通过SFT就可以达到不错的效果，说明问答数据集是非常充分的。对于特定领域，这可能不太可行。