reward model训练的哪些方面的能力

OpenLMLab / MOSS-RLHF

MOSS-RLHF

Apache License 2.0

1.19k stars 88 forks source link

Open yuanhuachao opened 10 months ago

yuanhuachao commented 10 months ago

请问，reward model在训练时，训练数据主要是哪些方面的，主要训练reward model哪些方面的打分能力，这样我们在使用它做PPO时，才能知道用哪些方面的训练数据，训练policy model哪些方面的能力。

ruizheng20 commented 10 months ago

中英文的reward model数据主要就是helpful和harmless。