THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B
Apache License 2.0
1.97k stars 129 forks source link

请问在cogvlm2模型上如何使用RLHF-V数据集进行DPO训练 #151

Closed kaka-Cao closed 2 months ago

kaka-Cao commented 2 months ago

Feature request / 功能建议

类似这个链接一样,https://github.com/vlf-silkie/VLFeedback/tree/main,我尝试注册cogvlm2在模型库中,但遇到了许多问题,所以能否开发一个cogvlm2自己的RLHF训练框架出来,集成PPO,DPO,ORPO,KTO等常见的强化学习算法和多模态强化学习数据集,例如清华发布的RLHF-V数据集

Motivation / 动机

对cogvlm2能有更全面详尽的开发pipeline,目前在cogvlm和cogvlm2仓库中均为涉及到强化学习等其他训练方法。

Your contribution / 您的贡献

https://github.com/vlf-silkie/VLFeedback/tree/main类似于这个仓库

zRzRzRzRzRzRzR commented 2 months ago

目前没有相关的计划,我们目前没开源相关的RL的工作