Open dongdongrj opened 1 year ago
请问这些微调模型都是通过SFT微调得来的吗?关于RM和PPO阶段的微调,是没有用到呢?还是没有开源呢? 如果是没有用到RLHF,仅仅只是通过SFT就可以达到不错的效果,说明问答数据集是非常充分的。对于特定领域, 这可能不太可行。
请问这些微调模型都是通过SFT微调得来的吗?关于RM和PPO阶段的微调,是没有用到呢?还是没有开源呢? 如果是没有用到RLHF,仅仅只是通过SFT就可以达到不错的效果,说明问答数据集是非常充分的。对于特定领域, 这可能不太可行。