オープンボキャブラリー音声視覚セマンティックセグメンテーション

yukihiko-fuyuki commented 1 month ago

タイトル: オープンボキャブラリー音声視覚セマンティックセグメンテーション

リンク: https://arxiv.org/abs/2407.21721

概要:

音声-視覚セマンティックセグメンテーション（AVSS）は、音響的手がかりを用いて動画内の発音オブジェクトをセグメント化および分類することを目的としています。しかし、従来の手法のほとんどは、閉集合を前提としており、学習データから事前に定義されたカテゴリのみを識別するため、実際のアプリケーションで新しいカテゴリを検出するための汎化能力に欠けています。本稿では、AVSSタスクを注釈付きラベル空間を超えたオープンワールドシナリオに拡張する、新しいタスクであるオープンボキャブラリー音声-視覚セマンティックセグメンテーションを紹介します。これは、学習中に見たことも聞いたこともないカテゴリも含め、すべてのカテゴリを認識する必要がある、より困難なタスクです。さらに、最初のオープンボキャブラリーAVSSフレームワークであるOV-AVSSを提案します。これは、主に2つの部分で構成されています。1）音声-視覚融合を実行し、潜在的な発音オブジェクトをすべて特定するためのユニバーサル音源定位モジュールと、2）大規模な事前学習済みビジョン言語モデルからの事前知識を活用してカテゴリを予測するオープンボキャブラリー分類モジュールです。オープンボキャブラリーAVSSを適切に評価するために、AVSBench-semanticベンチマークに基づいて、ゼロショット学習とテストのサブセットに分割しました。これをAVSBench-OVと呼びます。広範な実験により、私たちのモデルのすべてのカテゴリにおける強力なセグメンテーション能力とゼロショット汎化能力が実証されました。AVSBench-OVデータセットでは、OV-AVSSはベースカテゴリで55.43%のmIoUを、新規カテゴリで29.14%のmIoUを達成し、最先端のゼロショット手法を41.88%/20.61%、オープンボキャブラリー手法を10.2%/11.6%上回りました。コードはhttps://github.com/ruohaoguo/ovavssで公開されています。

yukihiko-fuyuki commented 1 month ago

論文要約

論文要約: オープンボキャブラリー音声視覚セマンティックセグメンテーション

この論文では、動画内の音と映像を組み合わせて、未知の物体を含む全ての物体を認識する、新しい技術 OV-AVSS を提案しています。

従来の技術では、事前に学習した特定の物体しか認識できませんでしたが、OV-AVSSは学習していない物体にも対応できる点が革新的です。

OV-AVSSの特徴：

音声と映像の情報を統合: 音源定位技術を用いて、動画内の音と映像を関連付けます。
未知の物体への対応: 大規模な画像言語モデルの知識を活用することで、学習していない物体も認識します。

OV-AVSSの性能:

既存技術よりも高い精度で物体を認識できることを確認しました。
特に、未知の物体に対する認識精度が大幅に向上しました。

この技術は、ロボットの物体認識や自動運転など、様々な分野への応用が期待されます。

yukihiko-fuyuki commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

ビジョン言語モデル
ベンチマーク
自然言語処理

Sunwood-ai-labs / Yukihiko