wangyuchi369 / LaDiC

[NAACL 2024] LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-text Generation?
https://arxiv.org/pdf/2404.10763.pdf
37 stars 2 forks source link

pretrained model #4

Open FuLy2002 opened 2 weeks ago

FuLy2002 commented 2 weeks ago

作者您好,感谢您的代码开源,我在使用您公布的预训练权重(LaDiC.bin)直接在测试集上测试时,在30步的情况下,发现各种评估指标与论文中的结果有微小的差距,但在CIDEr分数上差距比较明显,请问这是我的config.py(当前与仓库中的config.py保持不变)有问题还是有其他问题呢?

wangyuchi369 commented 6 hours ago

您好!如果只有微小差距的话说明整体Inference过程应该没有问题的,CIDEr明显一点也可能是本身range比较大。 有以下建议:

  1. 可以调整一些sampling时的超参数,例如classifier free guidance的weight等
  2. 我们采样时是用了Minimum Bayes Risk Decoding的,因为是后处理代码里好像没有放,您可以参考https://arxiv.org/pdf/2205.14217 的Section 5.2