2024年 OOD-CV UNICORN チャレンジオブジェクト検出支援LLM 計数能力向上のためのソリューション

fulfulggg commented 1 month ago

タイトル: 2024年 OOD-CV UNICORN チャレンジオブジェクト検出支援LLM 計数能力向上のためのソリューション

リンク: https://arxiv.org/abs/2410.16287

概要:

本レポートでは、ECCV OOD-CV UNICORN Challenge 2024 において我々が探求し提案した手法の詳細を説明します。このコンテストは、大規模言語モデルの応答の堅牢性に焦点を当てたものです。コンテストで使用されたデータセットは、OODCA-VQA と SketchyQA です。モデルの堅牢性をテストするために、主催者はデータセットの2つの亜種、OODCV-Counterfactual と Sketchy-Challenging を追加しました。これらのデータセットにはいくつかの難しさがあります。第一に、Sketchy-Challenging データセットは、モデルの汎化能力をテストするために、より希少なアイテムカテゴリを使用しています。第二に、OODCV-Counterfactual データセットでは、与えられた問題には、変曲点や計算ステップが含まれていることが多く、モデルは推論プロセス中にそれらを認識する必要があります。この問題に対処するために、オブジェクト検出モデルを使用してLLMを支援することに焦点を当てた、シンプルながらも効果的なアプローチである Object Detection Assistance Large Language Model(LLM) Counting Ability Improvement(ODAC) を提案します。具体的には、我々のアプローチは、(1)オブジェクト検出支援、(2)反事実的固有プロンプト、という2つの主要なブロックで構成されています。私たちのアプローチは、最終テストで0.86のスコアを獲得し、2位にランクインしました。

fulfulggg commented 1 month ago

論文要約

論文要約:

目的: 画像認識AIの精度向上を競うコンテスト「OOD-CV UNICORN Challenge 2024」における提案手法の紹介
課題:
- 画像認識AIは、見たことのない物体や状況に対応するのが苦手
- 今回のコンテストでは、特に「珍しい物体」と「複雑な状況判断」が求められるデータセットが使われた
提案手法 (ODAC):
- オブジェクト検出支援: 画像認識AIに特化した「物体検出モデル」を追加搭載し、画像内の物体を正確に認識できるようにした
- 反事実的固有プロンプト: 複雑な状況をAIが理解しやすいように、質問文を工夫する技術を導入
結果: 提案手法により高い精度を達成し、コンテストで2位を獲得

一言でまとめると: 物体検出モデルの追加と質問文の工夫により、画像認識AIの弱点克服を目指した研究

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

llm
object-detection
robustness

fulfulggg / Information-gathering