Open fulfulggg opened 2 months ago
自動運転システムの精度は、カメラやセンサーといった異なる情報源(モダリティ)を組み合わせることで向上しますが、従来の手法は各モダリティの個性を十分に活かしきれていませんでした。
この論文では、各モダリティの情報を維持しながら効果的に統合する新しいフレームワーク DeepInteraction++ を提案します。
DeepInteraction++ の特徴
マルチモーダル表現相互作用エンコーダ:
マルチモーダル予測相互作用デコーダ:
DeepInteraction++ の成果
要点
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: DeepInteraction++: 自動運転のためのマルチモーダルインタラクション
リンク: https://arxiv.org/abs/2408.05075
概要:
既存の最高性能の自動運転システムは、信頼性の高いシーン理解のために、通常、マルチモーダル融合戦略に依存しています。しかし、この設計は、モダリティ固有の強みを軽視し、最終的にモデルの性能を阻害するという根本的な制約があります。この制限に対処するため、本研究では、個々のモダリティごとの表現を学習し、維持することを可能にする新しいモダリティ相互作用戦略を導入し、知覚パイプライン全体を通して、それぞれの独自の特性を活用できるようにします。提案された戦略の有効性を示すために、DeepInteraction++を設計しました。これは、マルチモーダル表現相互作用エンコーダとマルチモーダル予測相互作用デコーダを特徴とするマルチモーダル相互作用フレームワークです。具体的には、エンコーダは、個別のモダリティ固有の表現間での情報交換と統合のための特別な注意操作を備えたデュアルストリームTransformerとして実装されています。オブジェクト中心の正確なサンプリングベースの特徴アラインメントとグローバルな高密度情報拡散の両方を組み込んだ、より困難な計画タスクに不可欠なマルチモーダル表現学習を実現しています。デコーダは、統一されたモダリティにとらわれない方法で、個別の表現からの情報を交互に集約することにより、予測を反復的に絞り込み、マルチモーダル予測相互作用を実現するように設計されています。広範な実験により、3Dオブジェクト検出とエンドツーエンドの自動運転タスクの両方で、提案されたフレームワークの優れたパフォーマンスが実証されています。コードはhttps://github.com/fudan-zvg/DeepInteractionで入手できます。