[37] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations. arXiv preprint arXiv:1803.02155, 2018. 2, 3, 4
[18] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Curtis Hawthorne, Andrew M Dai, Matthew D Hoffman, and Douglas Eck. Music transformer. In Advances in Neural Processing Systems, 2018. 3, 4
論文へのリンク
[arXiv:1904.09925] Attention Augmented Convolutional Networks
著者・所属機関
Irwan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlens, Quoc V. Le
投稿日時(YYYY-MM-DD)
2020-04-22
1. どんなもの?
CNNでは補足できない画像の大域的な依存関係を捉える自己注意機構を提案した。空間方向に相対的な位置関係をエンコーディングすることで物体の位置関係を計算することが可能となった。
本手法とCNNを組み合わせることで同程度のパラメータで既存のモデルより高い精度を達成した。
2. 先行研究と比べてどこがすごいの?
本手法はCNNの効果を増強させることができ、CNNで計算された特徴マップと自己注意機能で計算された特徴マップを結合させることで、より大域的な依存関係を補足することが可能となる。
本手法をCIFAR100とImageNetで検証し、またCOCOを用いた物体検知タスクにも適用した。SEモジュールを使用したモデルよりも高い精度を達成し、自己注意機構のみを用いたモデルであっても多少精度が悪化する程度であった。
3. 技術や手法の"キモ"はどこにある?
以下の数式ではNhをHeadの数、dvやdkはValueやQueryのサイズを表現している。
3.1 Self-attention over images
自己注意機構では、入力される特徴量の次元数が(H, W, Fin)の場合に、まずテンソルの形状を(HW x Fin)の次元に変換する。あとはValue・Query・Keyを計算するためにそれぞれに入力チャンネル数Finを各ヘッドに合わせたチャンネル数dhkに変換する。
後は得られた各ヘッドでの重みを結合して、線型結合層を使用して出力チャンネル数dvに変換し、元の入力の空間次元数に合わせてテンソルの形状を(H, W, dv)に変換する。
Positional Encoding
自己注意機構の注意点は、空間の位置情報を与えなければ以下のようにピクセルの位置関係を変化させたとしても計算結果が変化しない点である。
位置エンコーディングを行う手法はいくつか提案されているが、既存の手法は画像分類や物体検知では効果を発揮していない。そこで本手法ではMusic Transformerの実装を参考に、相対的な位置関係をエンコーディングする手法を採用する。
Relative positional embeddings
本研究では相対的な高さ方向と幅方向の関係をもとの特徴量の足し合わせる形で実装している。実際の計算では(H, W)の2次元空間を(HW)の1次元表現に変換した上で、ある位置と別の位置との依存関係だけではなく、相対的な高さのずれや幅のずれを足し合わせる。
最終的には自己注意機構の計算式は以下のように変換される。
このSはそれぞれ(HW, Hw)の次元数で表現され相対的な空間情報を有している。ただしnaiveな実装では必要なメモリコストが増大してしまうため、Music Transformerでのメモリ量の削減テクニックを使用している。
3.2 Attention Augmented Convolution
過去に提案されているSEモジュールやBAMモジュールなどと異なる点は、空間方向とチャンネル方向を同時に計算することが可能で点と、既存のCNNに計算結果を渡すことが可能である点である。
Concatenating convolutional and attentional feature maps
本手法は以下のように畳み込みそ層で得られた特徴マップと組み合わせることが可能である。この際にv=dv/Foutを出力チャンネル数に対するValueのチャンネル数の割合とし、k=dk/Foutを出力チャンネル数に対するKeyとQueryのチャンネル数の割合としている。
Effect on number of parameters
Attention Augmented Convolutional Architectures
4. どうやって有効だと検証した?
5. 議論はあるか?