Open fulfulggg opened 2 days ago
本論文では、IDEA Researchが開発した統合オブジェクト中心ビジョンモデルDINO-Xを紹介します。これは、現時点で最高のオープンワールド物体検出性能を達成しています。DINO-Xは、Grounding DINO 1.5と同じTransformerベースのエンコーダ・デコーダアーキテクチャを採用し、オープンワールド物体理解のためのオブジェクトレベル表現を追求します。ロングテール物体検出を容易にするため、DINO-Xは入力オプションを拡張し、テキストプロンプト、ビジュアルプロンプト、およびカスタムプロンプトをサポートします。これらの柔軟なプロンプトオプションにより、プロンプト不要のオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し、ユーザーがプロンプトを提供することなく画像内のあらゆるものを検出することを可能にしました。モデルの中核となるグラウンディング機能を強化するため、Grounding-100Mと呼ばれる1億を超える高品質グラウンディングサンプルを持つ大規模データセットを構築し、モデルのオープンボキャブラリー検出性能を向上させました。このような大規模グラウンディングデータセットでの事前学習により、基盤となるオブジェクトレベル表現が得られます。これにより、DINO-Xは複数の知覚ヘッドを統合し、検出、セグメンテーション、姿勢推定、オブジェクトキャプション、オブジェクトベースのQAなど、複数のオブジェクト知覚および理解タスクを同時にサポートできます。実験結果は、DINO-Xの優れた性能を示しています。具体的には、DINO-X Proモデルは、COCO、LVIS-minival、LVIS-valゼロショット物体検出ベンチマークでそれぞれ56.0 AP、59.8 AP、52.4 APを達成しました。特に、LVIS-minivalとLVIS-valベンチマークのレアクラスでは、それぞれ63.3 APと56.5 APを獲得し、どちらも従来の最先端技術の性能を5.8 AP向上させました。この結果は、ロングテール物体の認識能力が大幅に向上したことを示しています。
DINO-Xは、画像内の様々な物体を検出・理解するための高性能なAIモデルです。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: DINO-X:オープンワールドの物体検出と理解のための統合ビジョンモデル
リンク: https://arxiv.org/abs/2411.14347
概要:
本論文では、IDEA Researchが開発した統合オブジェクト中心ビジョンモデルDINO-Xを紹介します。これは、現時点で最高のオープンワールド物体検出性能を達成しています。DINO-Xは、Grounding DINO 1.5と同じTransformerベースのエンコーダ・デコーダアーキテクチャを採用し、オープンワールド物体理解のためのオブジェクトレベル表現を追求します。ロングテール物体検出を容易にするため、DINO-Xは入力オプションを拡張し、テキストプロンプト、ビジュアルプロンプト、およびカスタムプロンプトをサポートします。これらの柔軟なプロンプトオプションにより、プロンプト不要のオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し、ユーザーがプロンプトを提供することなく画像内のあらゆるものを検出することを可能にしました。モデルの中核となるグラウンディング機能を強化するため、Grounding-100Mと呼ばれる1億を超える高品質グラウンディングサンプルを持つ大規模データセットを構築し、モデルのオープンボキャブラリー検出性能を向上させました。このような大規模グラウンディングデータセットでの事前学習により、基盤となるオブジェクトレベル表現が得られます。これにより、DINO-Xは複数の知覚ヘッドを統合し、検出、セグメンテーション、姿勢推定、オブジェクトキャプション、オブジェクトベースのQAなど、複数のオブジェクト知覚および理解タスクを同時にサポートできます。実験結果は、DINO-Xの優れた性能を示しています。具体的には、DINO-X Proモデルは、COCO、LVIS-minival、LVIS-valゼロショット物体検出ベンチマークでそれぞれ56.0 AP、59.8 AP、52.4 APを達成しました。特に、LVIS-minivalとLVIS-valベンチマークのレアクラスでは、それぞれ63.3 APと56.5 APを獲得し、どちらも従来の最先端技術の性能を5.8 AP向上させました。この結果は、ロングテール物体の認識能力が大幅に向上したことを示しています。