Open KUANWB opened 1 year ago
您好,请问value model的初始权重就是reward model的权重吗?value model是不是只需要加载完权重后把最后的投影层在每个tokens上都投影成一个标量就可以了?谢谢
是的 value model 的初始权重为reward model。 是的value model将每个token 的 hidden size -> 一个标量
谢谢
您好,请问value model的初始权重就是reward model的权重吗?value model是不是只需要加载完权重后把最后的投影层在每个tokens上都投影成一个标量就可以了?谢谢