RLHF-V / RLAIF-V

RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
200 stars 6 forks source link

请问一下Iterative alignment是如何在代码中实现的呢? #23

Closed HeLeHanPrivate closed 2 weeks ago

HeLeHanPrivate commented 3 weeks ago

根据readme.md,进行训练只需运行./script/train/llava15_train.sh,但我根据参数和阅读的代码,无法找到有关于论文中 [算法1:Iterative alignment of RLAIF-V] 的相关代码的实现(可能是我漏看了),按我阅读论文的理解,是否要交替运行 data_generation 和 train 各4次(即4次迭代),才能完成完整的复现论文呢?还是我误解了代码的意思,在train中就直接包含了这个算法?

希望能够解答我的疑惑,谢谢。

yiranyyu commented 2 weeks ago

是的,交替运行即可