Robust Physical-World Attacks on Deep Learning Models

一言でいうと

道路標識を誤認させるサンプルを作成するという研究。生成した停止の標識のサンプル(をプリントしたもの)を、速度制限の標識に100%誤認させることが可能だったという結果。手法としては誤認識させる最小かつ印刷可能な変動を、標識の範囲内のみという制約(Mask)をかけて計算している。

Ivan Evtimov, Kevin Eykholt, Earlence Fernandes, Tadayoshi Kohno, Bo Li, Atul Prakash, Amir Rahmati, Dawn Song

x' = x + δとし、x'は誤識別されるとする。誤識別に必要な最小限のδを求めるのを目的関数とする。

実際は角度や拡大縮小などに対しロバストにするため、そうしたサンプルを含むk個の学習データに対する平均を取る。

学習データxは当然矩形の画像になるが、実際の道路標識は真四角ではない。つまり、このまま行うと道路標識以外の部分(背景)にも変更が入ることになり、これはフェアではない(道路標識以外の部分の変更で誤認識させることになってしまうため)。そのため、道路標識部分以外を0にするマスクをかける。

また、印刷できないようなものだと実際に物理世界で実験する時困るので、δが印刷可能なように制約をかける(ここは先行研究があるようで、論文中に詳細はなし)。

上記の制約を含め、最終的な制約は以下のようになる。

物理世界におけるAdversarialなサンプルの評価手法についても述べられており、後続の研究を行う際に参考になるかも。