Dataloader on Aya colleciton, DIBT Preference Data, Multilingual Ultrafeedback DPO

for-ai / m-rewardbench

Official Code for M-RᴇᴡᴀʀᴅBᴇɴᴄʜ: Evaluating Reward Models in Multilingual Settings

https://m-rewardbench.github.io/

MIT License

17 stars 2 forks source link

Closed sanggusti closed 3 months ago