Defective Convolutional Layers Learn Robust CNNs

論文へのリンク

[arXiv:1911.08432] Defective Convolutional Layers Learn Robust CNNs

著者・所属機関

Tiange Luo, Tianle Cai, Mengxiao Zhang, Siyu Chen, Di He, Liwei Wang

Peking University
University of Southern California

投稿日時（YYYY-MM-DD）

2019-11-19

1. どんなもの？

従来のCNNモデルはテクスチャ情報を重視して学習しているため、テクスチャにノイズを導入した敵対的攻撃手法に弱い。そこで出力されるニューロンを学習時にもテスト時にも一定の割合で0にするDefective Convolution Layerを提案。各敵対的攻撃手法に対して頑強性を発揮することを確かめた。

2. 先行研究と比べてどこがすごいの？

CNNモデルに対する敵対的攻撃手法に、サンプルにノイズを導入してテキスチャの構造を崩し、誤った予測をさせる手法がある。

最近の研究ではCNNは物体の形状よりもテクスチャ情報を重視して学習してしまうため、人間の目では同じように見える物体に対しても誤った予測を行うことが判明している。

本研究では、局所的なテクスチャ情報をあえて崩壊させることでCNNがテキスチャ情報ではなく形状を学習できるDefective Convolution Layerを提案した。

3. 技術や手法の"キモ"はどこにある？

3.1 Defective畳み込み層の設計

通常の畳み込み演算は、入力される画像に畳み込みKernelを適用した後にバイアス項を足し上げ、活性化関数を適用しているため以下の数式で表現できる。

本研究で提案しているDefective畳み込み層は以下の数式で表される。活性化関数から得られた出力に対してマスク画像Mを適用しており、出力されるニューロンをランダムにゼロに落とす役割を持っている。

このマスク画像は学習パラメータではなく、ベルヌーイ分布からサンプリングしたものを学習時にもテスト時にも使用する。

出力されるニューロンをランダムに0にすることで、次の畳み込み層はより周期の短い高周波な成分（つまりテクスチャ成分）を学習することが難しくなり、より物体の形状を学習して識別を行うことが期待される。

次に本手法とDropoutとの違いを見ていく。数式を見るとほとんど同じように感じるが、異なる点は以下の3つになる。

Dropoutは過剰適合防止のために使用するため学習時にのみ適用するが、Defective畳み込みは学習時にもテスト時にも適用する。
Dropoutの2値マスクは学習時にランダムにサンプリングされるが、Defective畳み込みでは学習前に事前に定義している。
Dropoutは出力に近い層で高い確率（p=0.9など）で設定することが多いが、Defective畳み込みでは入力に近い層で低い確率（p=0.1など）で設定する。