OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

Reward Model #11

Open Cyber-Axe opened 1 year ago

Cyber-Axe commented 1 year ago

请问奖励模型可以单独使用吗?比如对某个input下的模型output返回一个奖励分数。如果可以的话应该如何构造输入文本呢?

Ablustrund commented 1 year ago

当然可以使用,对于中文,输入的多轮QA结构为:<|Human|>hello<|MOSS|>hi</s><|Human|>你好<|MOSS|>嗨</s>

Warrior63 commented 1 year ago

请问可以单独出一个reward model的运行脚本吗