pretrained model - Githubissues

wangyuchi369 / LaDiC

[NAACL 2024] LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-text Generation?

https://arxiv.org/pdf/2404.10763.pdf

37 stars 2 forks source link

Open FuLy2002 opened 2 weeks ago

FuLy2002 commented 2 weeks ago

作者您好，感谢您的代码开源，我在使用您公布的预训练权重（LaDiC.bin）直接在测试集上测试时，在30步的情况下，发现各种评估指标与论文中的结果有微小的差距，但在CIDEr分数上差距比较明显，请问这是我的config.py（当前与仓库中的config.py保持不变）有问题还是有其他问题呢？

wangyuchi369 commented 6 hours ago

您好！如果只有微小差距的话说明整体Inference过程应该没有问题的，CIDEr明显一点也可能是本身range比较大。有以下建议：

可以调整一些sampling时的超参数，例如classifier free guidance的weight等
我们采样时是用了Minimum Bayes Risk Decoding的，因为是后处理代码里好像没有放，您可以参考https://arxiv.org/pdf/2205.14217 的Section 5.2