既製のモデルに対し、信頼度を考慮したノイズ除去ファインチューニングによる確かなロバスト性の獲得

fulfulggg commented 2 hours ago

タイトル: 既製のモデルに対し、信頼度を考慮したノイズ除去ファインチューニングによる確かなロバスト性の獲得

リンク: https://arxiv.org/abs/2411.08933

概要:

深層学習の著しい進歩により、大規模な事前学習モデルなどの既製の分類器が多数登場しました。しかし、これらは通常クリーンなデータで学習されるため、敵対的攻撃に対して脆弱です。この脆弱性にもかかわらず、優れた性能と転移学習の容易さから、既製の分類器は依然として実用的に価値があり、事後的に敵対的堅牢性を提供するためのさらなる研究が求められています。最近提案されたデノイズスムージングという手法は、分類器の前にデノイザーモデルを配置することで、追加学習なしに証明可能な堅牢性を実現します。しかし、デノイザーはしばしば元のクラスの意味を失った画像、つまり幻覚を生成し、堅牢性の低下につながります。さらに、ノイズ除去処理は元の分布からの大きな分布シフトを引き起こし、デノイズスムージングフレームワークの堅牢性を最適な状態に到達させません。本論文では、既製の分類器の証明可能な堅牢性を向上させるための新しいファインチューニング手法である、信頼度を考慮したデノイズ画像選択によるファインチューニング（FT-CADIS）を提案します。FT-CADISは、デノイズスムージング中に既製の分類器の信頼度が幻覚画像を効果的に識別できるという観察に基づいています。これに基づき、幻覚画像を処理し、デノイズ画像からのファインチューニングの安定性を向上させるための、信頼度を考慮した学習目的関数を開発しました。このように、分類器は敵対的堅牢性に有益な画像のみを使用してファインチューニングできます。また、このようなファインチューニングは、分類器のパラメータのごく一部を更新するだけで実行できることもわかりました。様々なベンチマークにおいて、FT-CADISはすべてのℓ2敵対摂動半径で、デノイズスムージング手法の中で最先端の証明可能な堅牢性を確立したことを、広範な実験で示します。

fulfulggg commented 2 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

adversarial-learning
robustness
fine-tuning

以下の新しいラベルが作成され、適用されました：

fine-tuning

fulfulggg commented 2 hours ago

論文要約

深層学習モデルは高性能ですが、ノイズや意図的な改変（敵対的攻撃）に弱いという欠点があります。この論文では、既存のモデルの堅牢性を高める新しい手法「FT-CADIS」を提案しています。

FT-CADISは、画像にノイズ除去処理を施す「デノイズスムージング」という既存技術を改良したものです。デノイズスムージングは堅牢性を向上させますが、時に画像の意味が変わってしまう「幻覚」を起こし、逆に堅牢性を低下させる場合がありました。

FT-CADISは、モデルが自身の判断の確信度（信頼度）に基づいて、幻覚を起こした画像を識別し、学習から除外することでこの問題を解決します。信頼度の高い、つまり「確かな」画像だけを使ってモデルを再学習（ファインチューニング）することで、敵対的攻撃への耐性を効果的に高めます。しかも、モデル全体ではなく一部のパラメータのみを更新すれば良いので、効率的です。実験の結果、FT-CADISは従来のデノイズスムージングよりも高い堅牢性を達成しました。

fulfulggg / Information-gathering