RLHF-V / RLAIF-V

RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
250 stars 9 forks source link

ref_win_logp #1

Closed buptlihang closed 6 months ago

buptlihang commented 6 months ago

非常感谢您的开源,有问题想请教:

image

请问一下ref_win_logp这些是标注里面存的预先算出来的吗?RLAIF-V-Dataset里面貌似没有看到呢,有直接可用的数据可以参考吗?感谢

yiranyyu commented 6 months ago

您好,感谢关注!这里代码中使用的训练数据格式还没有迁移到开源格式中,我们正在全力适配,应该明天就能更新。如果您需要在此期间训练的话,可以参考这个脚本生成所需的中间训练结果。

Haoye17 commented 6 months ago

您好!我们目前完成了代码对Huggingface数据集的适配,在新的代码中我们将会自动从Huggingface下载数据集并进行logp的推理,您可以拉取最新的代码仓库,并按照这个步骤进行训练。再次感谢您的关注!如果您发现任何其他问题,我们将会全力解决~