自動運転における非視覚情報に基づくビデオインスタンスセグメンテーションのための基礎モデル

fulfulggg commented 1 month ago

タイトル: 自動運転における非視覚情報に基づくビデオインスタンスセグメンテーションのための基礎モデル

リンク: https://arxiv.org/abs/2409.14095

概要:

本研究では、自動運転における非可視領域を含む動画インスタンスセグメンテーションについて考察します。従来の手法では、標準的な動画インスタンスセグメンテーションの手法を応用し、完全にラベル付けされた動画データを用いて学習したモデルに基づいて、非可視領域を含む動画インスタンスセグメンテーションを行っていました。しかし、非可視領域を含む動画データのラベル付けは困難でコストがかかるため、インスタンスセグメンテーションとトラッキング性能の両立が課題となっていました。この問題を解決するために、本研究では、このタスクに対する基盤モデルの適用について検討します。具体的には、セグメント・エニシング・モデル（SAM）の幅広い知識を活用し、非可視領域を含むインスタンスセグメンテーションタスクに合わせて微調整を行います。初期動画インスタンスセグメンテーションに基づき、可視マスクから点をサンプリングして、非可視領域を含むSAMをプロンプトします。これらの点は、ポイントメモリに保存されます。以前に観測されたインスタンスが後続のフレームで予測されない場合、ポイントメモリから最新の点を取得し、ポイントトラッキング手法を用いて、対応する最後の非可視領域を含むインスタンスマスクと共に、現在のフレームまで追跡します。このように、非可視領域を含むインスタンスセグメンテーションに基づきながらも、動画レベルの非可視領域を含むインスタンスセグメンテーション結果を得ることができます。その結果、提案手法であるS-AModalは、非可視領域を含む動画データのラベル付けを必要とせず、最先端の非可視領域を含む動画インスタンスセグメンテーションを実現します。S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されています。

fulfulggg commented 1 month ago

論文要約

自動運転のための基礎モデルによる動画中の見えない領域の物体認識

従来手法の問題点

自動運転では、カメラに映らない部分の物体認識が重要。
従来は、見えない領域も含めて動画全てにラベルを付けたデータで学習する必要があり、コストがかかっていた。

提案手法 (S-AModal)

見えない領域も含めた物体認識を、事前に学習済みの「セグメント・エニシング・モデル(SAM)」を用いて実現。
- SAMは、どんな画像でも物体部分を認識できる汎用性の高いモデル。
動画の見える範囲で物体認識を行い、見えない範囲に入った物体を過去の情報から推測する。
- 見える範囲で物体を認識したら、特徴的な点を記憶。
- 物体が見えなくなったら、記憶した点をもとに見えない範囲での位置を推定し、過去の情報と組み合わせて物体認識を行う。

メリット

高精度な動画中の物体認識を、見えない領域も含めて実現できる。
見えない領域のデータを作る必要がなく、低コストで実現できる。

コード公開

S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されている。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

segmentation
video-understanding
object-tracking

fulfulggg / Information-gathering