请问一下Iterative alignment是如何在代码中实现的呢？

根据readme.md，进行训练只需运行./script/train/llava15_train.sh，但我根据参数和阅读的代码，无法找到有关于论文中 [算法1:Iterative alignment of RLAIF-V] 的相关代码的实现（可能是我漏看了），按我阅读论文的理解，是否要交替运行 data_generation 和 train 各4次（即4次迭代），才能完成完整的复现论文呢？还是我误解了代码的意思，在train中就直接包含了这个算法？

希望能够解答我的疑惑，谢谢。

RLHF-V / RLAIF-V

请问一下Iterative alignment是如何在代码中实现的呢？ #23