Open yuanhuachao opened 10 months ago
请问,reward model在训练时,训练数据主要是哪些方面的,主要训练reward model哪些方面的打分能力,这样我们在使用它做PPO时,才能知道用哪些方面的训练数据,训练policy model哪些方面的能力。
中英文的reward model数据主要就是helpful和harmless。
请问,reward model在训练时,训练数据主要是哪些方面的,主要训练reward model哪些方面的打分能力,这样我们在使用它做PPO时,才能知道用哪些方面的训练数据,训练policy model哪些方面的能力。