请问在cogvlm2模型上如何使用RLHF-V数据集进行DPO训练 - Githubissues

THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B

Apache License 2.0

1.97k stars 129 forks source link

请问在cogvlm2模型上如何使用RLHF-V数据集进行DPO训练 #151

Closed kaka-Cao closed 2 months ago

kaka-Cao commented 2 months ago

Feature request / 功能建议

类似这个链接一样，https://github.com/vlf-silkie/VLFeedback/tree/main，我尝试注册cogvlm2在模型库中，但遇到了许多问题，所以能否开发一个cogvlm2自己的RLHF训练框架出来，集成PPO,DPO,ORPO,KTO等常见的强化学习算法和多模态强化学习数据集，例如清华发布的RLHF-V数据集

Motivation / 动机

对cogvlm2能有更全面详尽的开发pipeline，目前在cogvlm和cogvlm2仓库中均为涉及到强化学习等其他训练方法。

Your contribution / 您的贡献

https://github.com/vlf-silkie/VLFeedback/tree/main类似于这个仓库

zRzRzRzRzRzRzR commented 2 months ago

目前没有相关的计划，我们目前没开源相关的RL的工作