Closed kaka-Cao closed 2 months ago
类似这个链接一样,https://github.com/vlf-silkie/VLFeedback/tree/main,我尝试注册cogvlm2在模型库中,但遇到了许多问题,所以能否开发一个cogvlm2自己的RLHF训练框架出来,集成PPO,DPO,ORPO,KTO等常见的强化学习算法和多模态强化学习数据集,例如清华发布的RLHF-V数据集
对cogvlm2能有更全面详尽的开发pipeline,目前在cogvlm和cogvlm2仓库中均为涉及到强化学习等其他训练方法。
https://github.com/vlf-silkie/VLFeedback/tree/main类似于这个仓库
目前没有相关的计划,我们目前没开源相关的RL的工作
Feature request / 功能建议
类似这个链接一样,https://github.com/vlf-silkie/VLFeedback/tree/main,我尝试注册cogvlm2在模型库中,但遇到了许多问题,所以能否开发一个cogvlm2自己的RLHF训练框架出来,集成PPO,DPO,ORPO,KTO等常见的强化学习算法和多模态强化学习数据集,例如清华发布的RLHF-V数据集
Motivation / 动机
对cogvlm2能有更全面详尽的开发pipeline,目前在cogvlm和cogvlm2仓库中均为涉及到强化学习等其他训练方法。
Your contribution / 您的贡献
https://github.com/vlf-silkie/VLFeedback/tree/main类似于这个仓库