FADE: 大規模画像言語モデルを用いた少数/ゼロショット異常検出エンジン

fulfulggg commented 4 weeks ago

タイトル: FADE: 大規模画像言語モデルを用いた少数/ゼロショット異常検出エンジン

リンク: https://arxiv.org/abs/2409.00556

概要:

製造業における品質検査において、自動画像異常検出は重要な役割を担っています。従来の教師なし異常検出アプローチでは、正常サンプルのデータセットを用いて、オブジェクトクラスごとにモデルを学習させていました。しかし、より現実的な問題設定として、正常サンプルが全くない、あるいはごくわずかしかない状況下でのゼロショット／少数ショット異常検出が挙げられます。このような状況では、オブジェクト固有のモデルの学習が困難になります。近年、大規模基盤ビジョン言語モデルが、さまざまなダウンストリームタスクにおいて強力なゼロショット性能を示しています。これらのモデルは、視覚と言語間の複雑な関係を学習していますが、異常検出タスク向けに特別に設計されているわけではありません。本稿では、ビジョン言語CLIPモデルを活用し、それを産業用異常検出の目的に合わせて調整した、Few-shot/zero-shot Anomaly Detection Engine (FADE) を提案します。具体的には、1) 言語とより整合性の高いマルチスケール画像パッチ埋め込みを抽出するためにCLIPを適応させ、2) 産業用異常検出に関連するテキストプロンプトのアンサンブルを自動的に生成することで、言語ガイド付き異常セグメンテーションを改善します。3) クエリ画像と参照画像から得られる追加の視覚ベースのガイダンスを用いることで、ゼロショットと少数ショットの両方の異常検出をさらに向上させます。MVTec-AD (およびVisA) データセットにおいて、FADEは、ゼロショットで89.6% (91.5%)、1-normal-shotで95.4% (97.5%)のpixel-AUROCを達成し、他の最先端の手法を上回る異常セグメンテーション性能を示しました。コードはhttps://github.com/BMVC-FADE/BMVC-FADEで公開されています。

fulfulggg commented 4 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

anomaly-detection
few-shot-learning
llm

fulfulggg commented 4 weeks ago

論文要約