fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

リモートセンシング画像変化キャプションにおける主要な変化の知覚の向上 #338

Open fulfulggg opened 4 hours ago

fulfulggg commented 4 hours ago

タイトル: リモートセンシング画像変化キャプションにおける主要な変化の知覚の向上

リンク: https://arxiv.org/abs/2409.12612

概要:

近年、リモートセンシング画像の変化のキャプション生成において大きな進歩が見られる一方で、既存の手法は実際の変化に関係のない領域を除外することができないため、モデルは無関係な特徴の影響を受けやすくなっています。本稿では、重要な変化の特徴と命令調整 (KCFI) によって導かれる、リモートセンシング画像の変化のキャプション生成のための新しいマルチモーダルフレームワークを提案します。このフレームワークは、視覚的な指示を通じて大規模言語モデルの潜在的な知識を最大限に活用し、ピクセルレベルの変化検出タスクを使用して変化の特徴の有効性と精度を高めることを目的としています。具体的には、KCFI は、2 時期のリモートセンシング画像の特徴を抽出するための ViTs エンコーダ、重要な変化領域を特定するための重要な特徴パーシーバ、重要な変化の特徴を制約するためのピクセルレベルの変化検出デコーダ、および大規模言語モデルに基づく命令調整デコーダで構成されます。さらに、変化の説明と変化検出タスクを共同で最適化するために、2 つのタスク間の損失のバランスを取るために動的な重み付け平均戦略を採用しています。また、視覚的な微調整命令のためのさまざまな特徴の組み合わせを検討し、大規模言語モデルの指導には重要な変化の特徴のみを使用することが最適な選択であることを示しています。私たちのアプローチの有効性を検証するために、LEVIR-CC データセット上で最先端の変化キャプション生成手法と比較し、最高のパフォーマンスを達成しました。私たちのコードは https://github.com/yangcong356/KCFI.git で公開予定です。

fulfulggg commented 4 hours ago

論文要約

リモートセンシング画像変化キャプションにおける主要な変化の知覚の向上: 論文要約

この論文は、リモートセンシング画像の変化をより正確に文章で説明するための新しい手法を提案しています。

従来の問題点:

提案手法 (KCFI):

KCFI の構成要素:

成果:

まとめ:

fulfulggg commented 4 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: