The process of RLHF and reward modeling

MiuLab / Taiwan-LLM

Traditional Mandarin LLMs for Taiwan

https://twllm.com

Apache License 2.0

1.26k stars 104 forks source link

The process of RLHF and reward modeling #55

Open joshhu opened 8 months ago

joshhu commented 8 months ago

這個模型是從llama2 SFT出來的話，看llama2的論文似乎llama2並沒有經過RLHF(llama2-chat有)，請問Taiwan llama2有經過RLHF的訓練嗎？如果沒有的話，有關繁體中文的對齊，可以使用RLHF來進行，而非SFT。至於comparison的資料集，可以考慮用ChatGPT來產生，這樣不知有沒有試過，謝謝

adamlin120 commented 6 months ago

好問題，我們看到產學界缺乏評分資料所以建立了 TW Chatbot Arena，目前收集到了上千的對比資料。