fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

MIP-GAF: 最重要人物の特定とグループ文脈理解のためのMLLM注釈付きベンチマーク #259

Open fulfulggg opened 6 days ago

fulfulggg commented 6 days ago

タイトル: MIP-GAF: 最重要人物の特定とグループ文脈理解のためのMLLM注釈付きベンチマーク

リンク: https://arxiv.org/abs/2409.06224

概要:

どんな社会的イベントにおいても、「最重要人物(MIP)」を見極めることは、文脈の複雑さとラベル付きデータの不足から、困難な課題となっています。さらに、MIP推定における因果関係の側面は非常に主観的で多様です。そこで本研究では、画像中の「最重要人物(MIP)」に関する人間の認識を特定するための、大規模な「現実世界」データセットに注釈をつけることで、この問題に取り組みます。本稿では、提案するマルチモーダル大規模言語モデル(MLLM)に基づくデータアノテーション戦略と、徹底的なデータ品質分析について詳しく説明します。さらに、最先端のMIP位置特定手法を用いて、提案するデータセットの包括的なベンチマークを行い、既存のデータセットと比較してパフォーマンスが大幅に低下することを示します。このパフォーマンスの低下は、既存のMIP位置特定アルゴリズムが、「現実世界」の状況に対してより堅牢になる必要があることを示しています。提案するデータセットは、次世代の社会状況理解手法を構築する上で重要な役割を果たすと考えています。コードとデータはhttps://github.com/surbhimadan92/MIP-GAFで入手できます。

fulfulggg commented 6 days ago

論文要約

論文要約: MIP-GAF: 最重要人物の特定とグループ文脈理解のためのMLLM注釈付きベンチマーク

fulfulggg commented 3 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: