关于 ViT Transformer VisualTransformer 模型输出的疑问

BR-IDL / PaddleViT

:robot: PaddleViT: State-of-the-art Visual Transformer and MLP Models for PaddlePaddle 2.0+

Apache License 2.0

1.22k stars 318 forks source link

PaddleViT/image_classification/ViT/transformer.py VisualTransformer 模型的输出是不是少了一个 attn:

class VisualTransformer(nn.Layer):
    ……
    def forward(self, x):
        x = self.patch_embedding(x)
        x, attn = self.encoder(x)
        logits = self.classifier(x[:, 0]) # take only cls_token as classifier
        return logits

我个人认为，模型的输出应该同时返回 attn的：

class VisualTransformer(nn.Layer):
    ……
    def forward(self, x):
        x = self.patch_embedding(x)
        x, attn = self.encoder(x)
        logits = self.classifier(x[:, 0]) # take only cls_token as classifier
        return logits, attn

理由如下：

其一，每层注意力注意力权重 attn，在 Attention，EncoderLayer 和 Encoder 中一直都是由返回的，如果模型输出不返回 attn，那么前面几个类的返回将会是多余的，可能毫无意义。
其二，每层注意力权重 attn，在后期的可视化中可能回用到。我猜前面几个类返回每层注意力权重，这样的设计可能也是基于可视化的考量的。

综上，建议模型输出同时返回每层的注意力权重 attn~

BR-IDL / PaddleViT

关于 ViT Transformer VisualTransformer 模型输出的疑问 #77