IA-RED2: Interpretability-Aware Redundancy Reduction for Vision Transformers

1 はじめに

リカレント演算や畳み込み演算を行わずに逐次入力を処理する自己注意ベースのアーキテクチャであるTransformerは、近年、コンピュータビジョンの文献に嵐を巻き起こしています。入力画像を一連のパッチに分割し、それらを線形変換してトークン化することにより、Transformerは異なるモダリティの視覚データを効果的に処理することができます[12, 47, 48, 27, 3, 16, 59]。このように多機能であるにもかかわらず、変換器は非効率的な計算と曖昧な解釈性に常に悩まされている。視覚変換器は、特に入力シーケンスが長い場合、重い計算コストに悩まされる。視覚変換器の注目モジュールは，すべての入力パッチ間の完全に連結された関係を計算するので，計算コストは入力シーケンスの長さに対して二次的になる．一方，以前の研究[6, 8]では，オリジナルのビジョン変換器の解釈の脆弱性がすでに示されており，アーキテクチャから得られる生の注意では，入力画像の有益な領域を認識できないことがある．最近では，より少ない計算コストでより高い精度を得るための視覚変換アーキテクチャの設計[33, 58, 17, 49, 13, 9, 3]が提案されている．これらの方法は，効率と精度との間に良好なトレードオフをもたらすが，その圧縮により，ビジョン変換器の解釈性がさらに欠如してしまう．これらの手法のほとんどは、入力シーケンスが固定された形状ルールの規則的な視覚入力からサンプリングされることを前提としており、したがってネットワークアーキテクチャも柔軟ではない。これにより、視覚変換器は

（1）アーキテクチャが特定の入力形状に合わせて設計されているため、任意の長さの入力シーケンスを処理できなくなる、（2）モデルにもタスクにもとらわれなくなる、（3）モデルの冗長性も入力に依存するという事実を無視する、

といったことが起こる。私たちは、効率性と解釈可能性の間に本質的な緊張関係はなく、両者を達成するためにデザインの柔軟性を代償にする必要はないと主張します。実際，オッカムのカミソリの哲学から出発して，可能であれば常によりコンパクトな解決策を追求すること，すなわち parsimony の法則は，特に複雑なフィッティング問題において，解釈可能性を追求するための親指の法則として常に扱われている[20]．本論文では，オリジナルのビジョン変換器の柔軟性と汎用性を維持しつつ，効率性と解釈可能性の両方のWin-Winを追求することを目的とする．我々は、ビジョン変換器の冗長性を削減するために、新しい解釈可能性認識REDundancy REDuction（IA-RED2 ）フレームワークを提案する。

IA-RED2は、入力シーケンスの長さを短くするために、元の入力シーケンスに含まれる情報量の少ないパッチを動的に削除することで、効率を向上させている。オリジナルのビジョン変換器は、すべての入力パッチをトークン化しますが、入力パッチの中には冗長なものがあり、そのような冗長性は入力に依存しているという事実を無視しています（図1より参照）。注意モジュールの計算量は、入力配列の長さに対して二次関数的に線形であるため、入力配列の長さを短くすることの効果は、計算量に比例して大きくなります。このことに触発されて、我々は動的推論[38, 36, 37, 54, 50]のアイデアを活用し、どのパッチが無情報であるかを決定し、それらを廃棄するためにポリシーネットワーク（マルチヘッドインタプリタと呼ばれる）を採用した。我々の提案する手法は、ポリシーネットワークがどの領域が最終的な予測結果に重要であるかを識別するように学習するため、本質的に解釈可能性を考慮している。

要約すると、本研究の主な貢献は以下の通りである。

(1) 解釈可能性を考慮した冗長性削減フレームワークであるIA-RED2フレームワークを初めて提案する。 (2) IA-RED2フレームワークは、視覚変換器のための初の入力依存型動的推論フレームワークであり、入力インスタンスごとに計算すべきパッチトークンを適応的に決定する。 (3) 提案するIA-RED2フレームワークは、モデルに依存せず、タスクにも依存しないフレームワークである。IA-RED2フレームワークを用いて、画像認識や行動認識などの異なるタスク、DeiT[47]やTimeSformer[3]などの異なるモデルを対象とした実験を行った。 (4) 画像認識タスクではDeiTに対して1.4倍、動画行動認識タスクではTimeSformerに対して4倍の高速化を実現し、精度をほぼ維持しながら、ベースラインに対して解釈可能な有望な結果を得ることができた（図3に示す）。

また、我々の手法によるヒートマップの解釈可能性と、raw attentionやMemNet[28]のような他のベースラインの手法による解釈可能性に関する定性的な結果と、GradCAM[40]のような現在の最先端のモデル解釈可能性の手法との定量的な比較を、弱教師付き画像セグメンテーションタスクのImageNet-Segmentation[15]データセットで行った。

e4exp / paper_manager_abstract

IA-RED2: Interpretability-Aware Redundancy Reduction for Vision Transformers #594

1 はじめに