mrwu-mac / DIFNet

This repository is for the paper ``DIFNet: Boosting Visual Information Flow for Image Captioning'' (CVPR 2022).
BSD 3-Clause "New" or "Revised" License
20 stars 7 forks source link

提问 #2

Closed yl17104265 closed 1 year ago

yl17104265 commented 2 years ago

为什么你们的代码和CVPR论文中的公式以及图表对应不上?

mrwu-mac commented 2 years ago

麻烦指明具体是哪部分对应不上

yl17104265 commented 2 years ago
  1. 在Encoder的后面几个Transformer层中,Extra Skip Connection是完全代替了原始的Add&Norm了吗?

  2. IILN中的MHSA、Common LN和PWFF使用相同的参数,而且进行迭代,那么在代码中,这部分参数进行多次梯度更新吗?

  3. IIIN或Extra Skip Connection中的多次LN的操作,在DLCT和RSTNet的代码中已经多次出现,并且基本上是相同的。但是在您的论文中是作为了主要创新点,是否可以解释一下?

  4. 如果将分割特征进行池化操作,是不是相当于将其看作另一个不同的网格特征。这样的池化操作,是否破坏了原始分割特征中的像素特性。

  5. 从实验数据来看,主要的模型提升在于引入分割特征。相比来说,模型结构的改进并没有非常明显的效果。

mrwu-mac commented 2 years ago
  1. 这里的Extra Skip Connection就是连续做了两次的Add&Norm,具体看论文公式10
  2. 这可以测试一下看看
  3. 我们已经在论文中阐述Transformer层中加Extra Skip Connection作为我们的baseline model,以确保我们的方法实现模型性能的提升不是Extra Skip Connection所带来的,这并非是本文主要创新点
  4. 这样做确实会造成一些信息的损失,但重要的特征依然能够被保留
  5. IILN结合跨层连接的情况下,CIDEr指标能够有1.2个百分点的提升

感谢您对我们的工作感兴趣,若有其它问题,欢迎指出