奖励模型和批评模型的相关问题？

OpenBMB / UltraFeedback

A large-scale, fine-grained, diverse preference dataset (and models).

MIT License

285 stars 16 forks source link

Open liumingzhu6060 opened 9 months ago

liumingzhu6060 commented 9 months ago

你好，看了数据集都是英文的，请问用英文训练的奖励模型是批评模型是否能用于中文呢？后续是否会开源中文的RLHF数据集？

lifan-yuan commented 9 months ago

感谢关注！

我们没有在中文上做过测试，但会计划在后续工作中造一些中文数据。