Sosuke115 / paper-reading

4 stars 1 forks source link

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples [ICML2018] #29

Open futakw opened 4 years ago

futakw commented 4 years ago

ひとことで言うと

「勾配をごまかす」Defence手法は、AEを作成しにくく上で一定の効果を示すが、実際には破ることができて、全く安全ではない。 ICLR2018で提案された9のうち7つがこのタイプの防御手法にあたり、本論文の攻撃手法によって破ることができた。

論文リンク

https://arxiv.org/abs/1802.00420

概要

勾配をごまかす手法として3タイプある。 ・微分不可能な操作をしている、などで勾配が存在しない時。 ・確率的に勾配が変わる時。→ネットワーク自体がランダム、またinputがランダム性をもつなど。 ・勾配が爆発、または消失する時。 これらは、故意でなくとも起きうるものである。

これらが起きているかどうかを確認する方法は5つある。 ・1-stepな攻撃の方が、iterative attackよりも強い時。 ・Black-boxの方が、white-boxよりも強い時。 ・Unboundedな攻撃手法が100%の成功率に至らない時。 ・ランダムサンプリングによってAEが見つかってしまう時。 ・distortion boundの増加に応じて攻撃精度が上がっていかない時。

提案攻撃手法

  1. 勾配masking,shatteringな防御手法に対して、BPDA: Backward Pass Differentiable Approximation 誤差逆伝搬させるときに、勾配を近似する。 non-differentiableな操作f(x)をf(x)≒g(x)なる微分可能なg(x)に置き換えて計算してしまう。

  2. ランダム性のある防御手法に対して、EOT t(x)と言うランダム変換について、E [f(t(x))] の期待値を計算することで、勾配を近似的に求める。

  3. 勾配消失・爆発には、Reparameterization f (g(x))でg(x)がinputを再帰的に処理する場合、勾配消失や爆発が起きる。 この場合、g(h(z))=h(z)を満たすhによって、x=h(x)とリパラメタライズ化することで、攻撃することができる。

ケーススタディ

ICLR2018の手法について、それぞれ破っていった。

議論

防御手法の安全性について語る時は、この論文は必読。勾配をごまかすだけの手法は、破られる、と言うこと。

関連論文