DINO-X：オープンワールドの物体検出と理解のための統合ビジョンモデル

fulfulggg commented 2 days ago

タイトル: DINO-X：オープンワールドの物体検出と理解のための統合ビジョンモデル

リンク: https://arxiv.org/abs/2411.14347

概要:

本論文では、IDEA Researchが開発した統合オブジェクト中心ビジョンモデルDINO-Xを紹介します。これは、現時点で最高のオープンワールド物体検出性能を達成しています。DINO-Xは、Grounding DINO 1.5と同じTransformerベースのエンコーダ・デコーダアーキテクチャを採用し、オープンワールド物体理解のためのオブジェクトレベル表現を追求します。ロングテール物体検出を容易にするため、DINO-Xは入力オプションを拡張し、テキストプロンプト、ビジュアルプロンプト、およびカスタムプロンプトをサポートします。これらの柔軟なプロンプトオプションにより、プロンプト不要のオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し、ユーザーがプロンプトを提供することなく画像内のあらゆるものを検出することを可能にしました。モデルの中核となるグラウンディング機能を強化するため、Grounding-100Mと呼ばれる1億を超える高品質グラウンディングサンプルを持つ大規模データセットを構築し、モデルのオープンボキャブラリー検出性能を向上させました。このような大規模グラウンディングデータセットでの事前学習により、基盤となるオブジェクトレベル表現が得られます。これにより、DINO-Xは複数の知覚ヘッドを統合し、検出、セグメンテーション、姿勢推定、オブジェクトキャプション、オブジェクトベースのQAなど、複数のオブジェクト知覚および理解タスクを同時にサポートできます。実験結果は、DINO-Xの優れた性能を示しています。具体的には、DINO-X Proモデルは、COCO、LVIS-minival、LVIS-valゼロショット物体検出ベンチマークでそれぞれ56.0 AP、59.8 AP、52.4 APを達成しました。特に、LVIS-minivalとLVIS-valベンチマークのレアクラスでは、それぞれ63.3 APと56.5 APを獲得し、どちらも従来の最先端技術の性能を5.8 AP向上させました。この結果は、ロングテール物体の認識能力が大幅に向上したことを示しています。

fulfulggg commented 2 days ago

論文要約

DINO-Xは、画像内の様々な物体を検出・理解するための高性能なAIモデルです。

どんなもの？: 複数のタスク（物体検出、領域分割、姿勢推定、キャプション生成、質問応答など）を同時に行える統合型のビジョンモデル。
何がすごいの？: 特に、あまりデータのない「珍しい物体」の検出において、従来のモデルを大きく上回る性能を達成。
仕組みは？: 「Grounding DINO」をベースに、テキストや画像など様々な種類のヒント（プロンプト）を使って物体を特定。ヒントがなくても検出できる汎用プロンプトも開発。
学習データ: 1億を超える高品質な画像と物体情報のペアデータ「Grounding-100M」で学習。これにより、珍しい物体も認識できるようになった。
成果: 物体検出のベンチマークテスト（COCO, LVIS）で最高スコアを記録。特に、LVISのレアクラス検出では従来モデルより5.8ポイントも高い精度を達成。

fulfulggg commented 2 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

object-detection
zero-shot-learning
long-tail-learning

fulfulggg / Information-gathering