fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

視覚テキストの重要性:視覚テキストエンティティ知識を備えた大規模マルチモーダルアシスタントによるテキストKVQAの改善 #576

Open fulfulggg opened 1 hour ago

fulfulggg commented 1 hour ago

タイトル: 視覚テキストの重要性:視覚テキストエンティティ知識を備えた大規模マルチモーダルアシスタントによるテキストKVQAの改善

リンク: https://arxiv.org/abs/2410.19144

概要:

大規模マルチモーダルモデル (LMM) の最新の進歩を踏まえ、Text-KVQA としても知られる知識ベースのテキストベース画像質問応答について再検討し、以下の貢献を行いました。(i) VisTEL を提案します。これは、視覚テキストエンティティリンキングを実行するための原則的なアプローチです。提案された VisTEL モジュールは、最先端の視覚テキスト認識エンジンと、画像内の周囲のキューを使用して取得したテキストおよび視覚コンテキストを使用して共同で推論する大規模マルチモーダルモデルの力を活用し、視覚テキストエンティティを正しい知識ベースエンティティにリンクします。(ii) KaLMA を紹介します。これは、画像内の視覚テキストエンティティに関連付けられた知識で LMM を強化して、正確な回答を導き出す、知識ベースの大規模マルチモーダルアシスタントです。さらに、従来の画像質問応答、大規模マルチモーダルモデル以前のモデル、大規模マルチモーダルモデル、および従来の最高性能のアプローチとの包括的な実験分析と比較を提供します。Text-KVQA の 3 つの分割を平均すると、提案されたアプローチは、以前の最良のアプローチを絶対スケールで 23.3% と大幅に上回り、新しい最先端技術を確立します。実装を公開します。

fulfulggg commented 1 hour ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 1 hour ago

論文要約

論文要約:

この論文では、画像内のテキスト情報を利用して、テキストベースの画像質問応答(Text-KVQA)の精度を向上させる新しい手法を提案しています。

具体的な貢献は以下の2点です。

実験の結果、提案手法は従来手法と比較して大幅な精度向上を達成しました。

要点: