加入RW后模型的效果

sunzeyeah / RLHF

Implementation of Chinese ChatGPT

282 stars 36 forks source link

Closed yxk9810 closed 1 year ago

yxk9810 commented 1 year ago

很好的工作，今天正好看到了trlx的summarization的example，想问下加入rw后的模型，在您的数据上的效果提升有多少？结果什么时候可以公布下？

sunzeyeah commented 1 year ago

谢谢。关于rw模型，由于使用pangu-2.6B训练时间过长，超过400小时，考虑资源有限，可能会改用小模型作为reward model

yxk9810 commented 1 year ago

多谢回答，期待reward模型的结果