Open zerebom opened 4 years ago
今までのニューラルネットワークのアーキテクチャの構築は、 パラメータの密度、幅、深さあたりの調整で行われてきた。
本論文はAttention機構を入れることで精度の向上を図った。
ResNetの各Convのあとに、以下のような機構を入れる。
Channel attention 中間層をh,w方向にmaxpool,avgpoolしたものをconcatし、3層のMLPに入力する (C/r 1 1,ReLu) これによって出力されたものをブロードキャストし、もとの中間層と要素ごとに掛け算する。 ChannelAttentionにより、何( what)が重要かを識別することができる。
Spatial attention 次にc方向にmaxpool,avgpoolしたものを7*7でconvする。これの出力層を先ほどと同様に要素ごとに掛け算する SpatialAttentionにより、どこ(Where)が重要かを識別できるようになる
ほとんどパラメータ数を増やすことなく、様々なデータセットで有用性があった GRAD-CAMで見ても良さそうだった
http://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_Attention_ECCV_2018_paper.pdf