Closed yxk9810 closed 1 year ago
很好的工作,今天正好看到了trlx的summarization的example,想问下加入rw后的模型,在您的数据上的效果提升有多少?结果什么时候可以公布下?
谢谢。关于rw模型,由于使用pangu-2.6B训练时间过长,超过400小时,考虑资源有限,可能会改用小模型作为reward model
多谢回答,期待reward模型的结果
很好的工作,今天正好看到了trlx的summarization的example,想问下加入rw后的模型,在您的数据上的效果提升有多少?结果什么时候可以公布下?