sunzeyeah / RLHF

Implementation of Chinese ChatGPT
282 stars 36 forks source link

加入RW后模型的效果 #1

Closed yxk9810 closed 1 year ago

yxk9810 commented 1 year ago

很好的工作,今天正好看到了trlx的summarization的example,想问下加入rw后的模型,在您的数据上的效果提升有多少?结果什么时候可以公布下?

sunzeyeah commented 1 year ago

谢谢。关于rw模型,由于使用pangu-2.6B训练时间过长,超过400小时,考虑资源有限,可能会改用小模型作为reward model

yxk9810 commented 1 year ago

多谢回答,期待reward模型的结果