Open hannlp opened 1 year ago
感谢回复,但是我尝试使用moss的reward model的打分时给baichuan-13b-chat或者gpt-4的response的平均打分甚至还不如几k数据sft的baichuan-7b(用其他的reward model就没有这种情况),可以麻烦作者使用我上面的测试代码试一下吗?我想确认一下是我这哪里出了问题(也有可能是我合并没合并对,但是初步检查了一下好像没问题),万分感谢!
@hannlp 请问大佬知道原因了嘛
@lln1997 还没有,你也遇到这个问题了吗? @ruizheng20
@hannlp 目前感觉效果没有子牙的好
@hannlp 目前感觉效果没有子牙的好
这个倒还正常吧,毕竟跟训练的各因素有很大的关系,但是我这个好像有点不对劲了,老哥能帮我试一下我的样例吗?我想对一下输出,看看是哪里出了问题
你好,reward model的打分是负数的话,是看相对大小吗,比如 -1>-2 我们认为得分为-1的结果比-2好?
@hannlp 哈哈哈老哥我是用的你的代码
@hannlp 哈哈哈老哥我是用的你的代码
输出和我的一致吗?
@hannlp 对
你好,reward model的打分是负数的话,是看相对大小吗,比如 -1>-2 我们认为得分为-1的结果比-2好?
是的 因为目标是一定的 在RL中让打分上升。但是分数是相对的 只能知道那个sample相对较好
@hannlp 哈哈哈老哥我是用的你的代码
很抱歉回复较晚,需要确认一下这里的输入是否缺少</s>
,但是不知道这对模型的打分是否有较大的影响
https://github.com/OpenLMLab/MOSS-RLHF/issues/24
感谢作者的无私开源,但是目前使用作者的Reward model打分时遇到一些问题,对于大部分问答,作者的reward model都会给负分,此外不同prompt对应的分数差别也很大,想请教一下是我的使用方法不对吗?
以下是我的使用代码:
还有一些其他例子: