OpenBMB / UltraFeedback

A large-scale, fine-grained, diverse preference dataset (and models).
MIT License
285 stars 16 forks source link

奖励模型和批评模型的相关问题? #2

Open liumingzhu6060 opened 9 months ago

liumingzhu6060 commented 9 months ago

你好,看了数据集都是英文的,请问用英文训练的奖励模型是批评模型是否能用于中文呢?后续是否会开源中文的RLHF数据集?

lifan-yuan commented 9 months ago

感谢关注!

我们没有在中文上做过测试,但会计划在后续工作中造一些中文数据。