Open fulfulggg opened 4 weeks ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
目的: 工場などの品質検査で重要な画像異常検出において、正常な画像データが少ない、あるいは全くない状況 (ゼロショット/少数ショット) でも高精度な異常検出を実現する。
課題: 従来の異常検出モデルは、大量の正常画像データで学習する必要があり、ゼロショット/少数ショット状況に対応できない。
提案手法 (FADE): 大規模画像言語モデルCLIPを活用し、産業用異常検出に特化した調整を加えることで、ゼロショット/少数ショット状況に対応可能な異常検出エンジンを開発。
結果:
結論: FADEは、少ないデータで高精度な異常検出を可能にする、産業応用上有望な技術である。
タイトル: FADE: 大規模画像言語モデルを用いた少数/ゼロショット異常検出エンジン
リンク: https://arxiv.org/abs/2409.00556
概要:
製造業における品質検査において、自動画像異常検出は重要な役割を担っています。従来の教師なし異常検出アプローチでは、正常サンプルのデータセットを用いて、オブジェクトクラスごとにモデルを学習させていました。しかし、より現実的な問題設定として、正常サンプルが全くない、あるいはごくわずかしかない状況下でのゼロショット/少数ショット異常検出が挙げられます。このような状況では、オブジェクト固有のモデルの学習が困難になります。近年、大規模基盤ビジョン言語モデルが、さまざまなダウンストリームタスクにおいて強力なゼロショット性能を示しています。これらのモデルは、視覚と言語間の複雑な関係を学習していますが、異常検出タスク向けに特別に設計されているわけではありません。本稿では、ビジョン言語CLIPモデルを活用し、それを産業用異常検出の目的に合わせて調整した、Few-shot/zero-shot Anomaly Detection Engine (FADE) を提案します。具体的には、1) 言語とより整合性の高いマルチスケール画像パッチ埋め込みを抽出するためにCLIPを適応させ、2) 産業用異常検出に関連するテキストプロンプトのアンサンブルを自動的に生成することで、言語ガイド付き異常セグメンテーションを改善します。3) クエリ画像と参照画像から得られる追加の視覚ベースのガイダンスを用いることで、ゼロショットと少数ショットの両方の異常検出をさらに向上させます。MVTec-AD (およびVisA) データセットにおいて、FADEは、ゼロショットで89.6% (91.5%)、1-normal-shotで95.4% (97.5%)のpixel-AUROCを達成し、他の最先端の手法を上回る異常セグメンテーション性能を示しました。コードはhttps://github.com/BMVC-FADE/BMVC-FADEで公開されています。