Open skepsun opened 10 months ago
看了论文,baichuan2 chat版本做了rlhf流程,采集了类似于hh_rlhf的数据,请问有开源rlhf数据和训练框架的计划吗?或者可以先开源一部分reward model训练数据?
附问一下,chat和base的差别就是加了对其这一步吗
看了论文,baichuan2 chat版本做了rlhf流程,采集了类似于hh_rlhf的数据,请问有开源rlhf数据和训练框架的计划吗?或者可以先开源一部分reward model训练数据?