Open e4exp opened 3 years ago
この10年間で,画像認識[1]から自然言語処理,強化学習[2]に至るまで,さまざまな知覚・認知タスクにおいて人間のパフォーマンスに匹敵し,さらにはそれを上回ることができる人工ニューラルネットワーク(ANN)が登場しました。 このような技術の急速な発展に伴い,これらのシステムの解釈可能性を向上させ,生物学的なものと比較することを目的とした研究も盛んに行われている[3, 4, 5]. コンピュータビジョンでは,ANNが画像を分類する際にどの視覚領域に注目するかを調べる技術が開発され,畳み込み層の受容野や,モデルのクラス活性化に最も影響を与える視覚入力の領域が可視化されている[6, 7, 8, 9, 10]. 神経科学の分野では,神経と行動の両方のベンチマークを用いて,人間の視覚システムのモデルとしての主要なANNの機能的忠実度を定量化する研究が始まっています[11]. 最後に,認知科学者は,ANNの学習表現の構造を人間の心理表現と比較する技術を開発しました[12, 13]. これらの努力は、標準的な物体分類ベンチマークでの性能を評価するだけでなく、生物学的視覚のモデルとしての主要なANNの生物学的および心理学的妥当性の理解に貢献している。 ANNと人間の視覚の対応関係に関するこれまでの分析は、システムが使用する表現に焦点を当てていた。 しかし、ANNが同じ方法で情報を選択するかどうか、特に、物体認識や位置特定のために情報を抽出する際に、人間と同じ視覚領域に注目するかどうかは、当然の疑問である。 先行研究では、人間の視覚的注視を予測するように明示的に学習されたANNが開発されており[14]、さらにはモデル設計に模擬的なfoveatedシステムが組み込まれている[15]が、人間の注意と計算機の注意を比較する研究は比較的少なく[16, 17, 18]、ANNがどのような視覚情報を使用しているかを調べるために、現在利用可能な幅広い解釈可能な技術と同様に、様々な人間の視覚的選択性の尺度を使用して、ANNが人間と比較する方法を包括的に検討しようとしている。 ANNが何を学習しているかを知るための手法は、どの視覚入力がクラスの活性化スコアに最も影響を与えるかを明らかにするように設計された、「受動的な」注意勾配ベースのアプローチから始まった[19]。 その後,デコンボリューション法やガイド付きバックプロパゲーション法を用いたより高度な手法が登場し[7, 20],さらには,大域平均プーリング層やクラス活性化マッピング(CAM)を用いて入力画像中のクラス固有の視覚領域を局所化するなど,新たな設計変更を導入した手法も登場した[8]. 最後に,大域的平均プーリングを行わないアーキテクチャにも適用できる,より一般的なアプローチが登場し[21],最近では,勾配にまったく依存しないクラス活性化マッピング技術を提案したものもある[22]
このような一連の "受動的 "技術とは別に、コンピュータ科学者たちは、解釈性の向上とパフォーマンスの向上の両方を目的として、エンドツーエンドの学習可能なアテンション・モジュールを組み込んだCNNモデルを開発している[23, 24]。 ANNの分類と定位に最も関連する情報を視覚化するためのあらゆる技術が利用できるようになったことで、人間の視覚的定位、注意、符号化精度、画像領域での視覚認識のバイアスを推定する上で、その結果を生物学的アナログと比較するという、前例のないユニークな機会が提供されている。
19世紀初頭から、生物の視覚を研究する視覚科学者たちは、霊長類の視覚システムが視覚探索、位置特定、認識などの同様の知覚的・認知的課題に取り組む際に使用する視覚情報を推定するためのさまざまな実験手法を開発してきました[25]。 その中には、視覚的変化に対する感度(識別精度)、視空間記憶(空間定位推定)、視覚的認識可能性の明示的な報告などがあります。 本研究では,6種類の知覚課題(3つの眼球運動課題(図1Cおよび図2A),変化感度課題(図1Bおよび図2A),空間定位課題(図1Dおよび図2A))と,最近の行動課題[26, 27]を用いた明示的な視覚認識性の推定値を用いた(図1Aおよび図2A)。 さらに,ガイド付きバックプロパゲーションやクラス活性化マッピングに基づく手法など,さまざまな事前学習モデルや視覚化手法を用いてANNの視覚選択性を推定し,それらと比較した. モデルには,AlexNet [1]のような初期の畳み込みネットワークや,EfficientNet [28]のような最先端に近いモデルなど,さまざまな種類のものを使用しました. その結果,一部のANNモデルと受動的注意の手法だけが,人間の視覚選択性の測定値全体に共通する分散を捉えることがわかりました。 この研究は、現代のANNの生物学的・心理学的妥当性を評価することを目的とした現在の取り組みに貢献するものであり、人工的な視覚システムと生物的な視覚システムの類似性を、学習された表現や視覚野の神経活性化のパターンへの対応ではなく、視覚入力のレベルで調査するものである[11]。
過去10年間の機械学習による解釈技術の発展により、人工ニューラルネットワーク(ANN)における分類や定位に最も有益な画像領域を観察する新しいツールが提供されました。 では、同じ領域は、人間の観察者にとっても同様に情報量が多いのでしょうか? 78の実験と6,610人の参加者から得られたデータを用いて、我々は、受動的注意の手法が、視覚弁別、空間定位、認識可能性、自由視点、手がかり物体探索、顕在化探索の6つの異なる行動課題から得られた人間の視覚選択性の推定値と大きく重なることを示しました。 その結果,ガイド付きバックプロパゲーション法を用いた比較的単純なANNアーキテクチャから得られた入力の視覚化が,人間の測定値の共同変動における共通成分の最良の予測因子であることがわかった。 これらの相関結果を、認識実験による因果関係の操作で検証した。 認識実験では、ANNのアテンションマップでマスクした画像は、コントロールマスクよりも人間が分類しやすいことを示した。 同様に、同じANNモデルの認識性能は、人間の視覚選択性マップを用いて入力画像をマスキングした場合にも同様に影響を受けることがわかりました。 本研究は、人間の視覚モデルとして有力なANNの生物学的・心理学的妥当性を評価するための新たなアプローチとして、画像に含まれる情報に対する視覚的選択性の観点から、ANNの類似性と相違性を検討することに貢献している。