OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.2k stars 91 forks source link

Reward Model #11

Open Cyber-Axe opened 11 months ago

Cyber-Axe commented 11 months ago

请问奖励模型可以单独使用吗?比如对某个input下的模型output返回一个奖励分数。如果可以的话应该如何构造输入文本呢?

Ablustrund commented 11 months ago

当然可以使用,对于中文,输入的多轮QA结构为:<|Human|>hello<|MOSS|>hi</s><|Human|>你好<|MOSS|>嗨</s>

Warrior63 commented 10 months ago

请问可以单独出一个reward model的运行脚本吗