Open Cyber-Axe opened 1 year ago
请问奖励模型可以单独使用吗?比如对某个input下的模型output返回一个奖励分数。如果可以的话应该如何构造输入文本呢?
当然可以使用,对于中文,输入的多轮QA结构为:<|Human|>hello<|MOSS|>hi</s><|Human|>你好<|MOSS|>嗨</s>
<|Human|>hello<|MOSS|>hi</s><|Human|>你好<|MOSS|>嗨</s>
请问可以单独出一个reward model的运行脚本吗
请问奖励模型可以单独使用吗?比如对某个input下的模型output返回一个奖励分数。如果可以的话应该如何构造输入文本呢?