【2024/10/09】Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

論文タイトル（原文まま）

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

一言でいうと

ディフュージョンモデルにおける安全な概念消去（nudityや特定オブジェクトなど）を強化するために、対抗学習（adversarial training）を活用した新しい概念消去手法（AdvUnlearn）を提案。

論文リンク

著者/所属機関

Yimeng Zhang, Xin Chen, Jinghan Jia, Yihua Zhang, Chongyu Fan, Jiancheng Liu, Mingyi Hong, Ke Ding, Sijia Liu
所属: Michigan State University, Intel, University of Minnesota, MIT-IBM Watson AI Lab

投稿日付

2024/10/09

概要

In this paper,

この論文では、ディフュージョンモデル（DM）が生成する不適切なコンテンツ（例：nudity）を防ぐため、概念消去（concept erasing）技術を強化することを目的とし、対抗学習（AT）を活用した新しい手法「AdvUnlearn」を提案しています。

As a result,

提案手法「AdvUnlearn」は、従来の概念消去手法に比べて、対抗プロンプト攻撃に対する強靭さと画像生成の品質のバランスを改善し、モデルの安全性を向上させることが示されました。

先行研究と比べてどこがすごい？

従来の概念消去手法は、不適切なコンテンツの生成を防ぐ効果はあるものの、対抗プロンプトによって消去された概念を復元されやすい脆弱性がありました。AdvUnlearnは、この脆弱性に対して、対抗学習を組み合わせることで強靭な防御を提供し、画像生成のユーティリティも維持する点が革新的です。

技術や手法のキモはどこ？

対抗学習（Adversarial Training; AT）：モデルに対して、攻撃と防御の二層構造で最適化を行うことで、概念消去の強靭さを向上。
ユーティリティ保持の正則化：画像生成の品質を損なわずに概念消去の効果を高めるため、追加プロンプトセットを活用し、最適なトレードオフを実現。
テキストエンコーダーの最適化：従来のUNetに対して、テキストエンコーダーの最適化がより効果的であるとし、プラグインとして他のモデルに適用可能にしました。

どうやって有効だと検証した？

実験では、AdvUnlearnを適用したディフュージョンモデルに対して様々な概念消去シナリオ（nudity、オブジェクト、スタイルなど）を評価し、従来の手法に対する強靭さ（ASR: Attack Success Rate）と生成品質（FID: Fréchet Inception Distance）を比較しました。

議論はある？

提案手法は既存手法よりも概念消去の強靭さを高めることが示されたものの、特定の条件下では対抗攻撃に完全な耐性を持つわけではない点が挙げられています。さらに、計算効率の向上も今後の課題とされています。

結果

AdvUnlearnは、他の最先端の概念消去手法よりも優れたASRとバランスのとれた画像生成のユーティリティを実現し、特定概念（nudity、オブジェクト、スタイルなど）に対する消去効果と品質の両立が可能であることを示しました。

次に読むべき論文は？

"Erasing Concepts from Diffusion Models" by Gandikota et al., 2023
"Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models" by Zhang et al., 2023

この研究は、テキストエンコーダーのみに対抗学習を適用することで、概念消去効果を大幅に向上させつつ計算効率を改善する点が興味深いです。また、提案された手法が他のディフュージョンモデルにプラグイン形式で適用できる点も、実用性を高めています。

手法の詳細（数式や理論展開など）

概念消去のための二層最適化問題：防御層（上層）と攻撃層（下層）から構成されるバイレベル最適化を導入し、概念消去の目標を設定しつつ、攻撃に対してモデルパラメータを調整します。
- 上層最適化（防御層）: [ \min_\theta \ell_u(\theta, c^*) ]
- 下層最適化（攻撃層）: [ c^* = \arg \min_{|c' - c_e|0 \leq \epsilon} \ell{\text{atk}}(\theta, c') ]
- ( c^* )は攻撃プロンプト、(\ell_{\text{atk}})は攻撃損失、(\ell_u)は概念消去損失を表します。
ユーティリティ保持の正則化：モデルが生成する画像の品質を保つために、外部データセットから取得したプロンプトセットに対して、生成画像の質の劣化を抑制する正則化を導入します。
- 正則化項: [ \ellu(\theta, c^*) = \ell{\text{ESD}}(\theta, c^*) + \gamma E{c̃ \sim C{\text{retain}}}\left[|\epsilon_\theta(xt | c̃) - \epsilon{\theta_o}(x_t | c̃)|^2\right] ]
- (C_{\text{retain}})は外部プロンプトセット、(\gamma)は調整パラメータです。

このように、AdvUnlearnは効率的かつ効果的な概念消去を実現するための独自のアプローチを展開しています。

拡散モデルの概念消去の問題

特定の概念を消去したいときは、あるプロンプトを入れた時の拡散モデルの出力と、何もプロンプトを入れなかった時の拡散モデルの出力を同じに近づければ良い。すなわち、それぞれの生成結果の2乗誤差の期待値を最小化する。

一方で、この方法では2点問題がある。一つは、一度消したと思った概念でも、似たようなプロンプトを入れることによって生成されてしまうこと（例えば、「マリオ」というプロンプトでは概念消去できたが、「任天堂ゲームの人気赤いおじさん」と打つとマリオと同じようなキャラクターが生成されてしまうなど）

2つ目は、概念消去を強くかけすぎると、画像生成の質が大幅に下がってしまう。「任天堂ゲームの人気赤いおじさん」と入れても、人物すら表示されない。本来はマリオとは別人の赤いおじさんが出てきて欲しいはず

これらの問題を解決するために前者は、敵対的攻撃プロンプトを作成するこの時、元のプロンプトとの誤差をε以下に抑えた敵対的プロンプトを考えるすなわち、概念消去前のモデルを利用した、概念消去したいプロンプトを投入した時の出力結果と、概念消去後のモデルを利用した、敵対的プロンプトを投入した時の出力結果の2乗誤差の期待値を最小化するような、敵対的プロンプトをargminで見つけてくる。これは、概念消去後のモデルにも関わらず、概念消去前の画像を生成してしまうプロンプトであるため、今度は防御側として、このプロンプトに対しても概念消去を行なっていく。これを永遠に繰り返すと、ε以内におさまるプロンプトがなくなっていくので、そうなればクリアである

後者は、一般的な画像生成プロンプトセットと用意する（例えば、人とか動物とかの版権とか何もない一般的に使われる画像生成のプロンプトの集合である）後者が、概念消去を行う際に適応される手法である。概念消去をする際に、損失関数に最初に提示した損失関数に加えて、プロンプトセットの中にあるプロンプトに対しては、概念消去の前後で生成される画像が変わらないようにするすなわち、プロンプトセットの中のプロンプトを入れた際に、概念消去前と後での生成結果の2乗誤差の期待値を最小化するという損失関数の項を、概念消去の損失関数に正則化として加える。

personabb / survey_paper