OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

value model与reward model #18

Open KUANWB opened 1 year ago

KUANWB commented 1 year ago

您好,请问value model的初始权重就是reward model的权重吗?value model是不是只需要加载完权重后把最后的投影层在每个tokens上都投影成一个标量就可以了?谢谢

Ablustrund commented 1 year ago

是的 value model 的初始权重为reward model。 是的value model将每个token 的 hidden size -> 一个标量

KUANWB commented 1 year ago

谢谢