Open fulfulggg opened 1 month ago
本研究では、自動運転における非可視領域を含む動画インスタンスセグメンテーションについて考察します。従来の手法では、標準的な動画インスタンスセグメンテーションの手法を応用し、完全にラベル付けされた動画データを用いて学習したモデルに基づいて、非可視領域を含む動画インスタンスセグメンテーションを行っていました。しかし、非可視領域を含む動画データのラベル付けは困難でコストがかかるため、インスタンスセグメンテーションとトラッキング性能の両立が課題となっていました。この問題を解決するために、本研究では、このタスクに対する基盤モデルの適用について検討します。具体的には、セグメント・エニシング・モデル(SAM)の幅広い知識を活用し、非可視領域を含むインスタンスセグメンテーションタスクに合わせて微調整を行います。初期動画インスタンスセグメンテーションに基づき、可視マスクから点をサンプリングして、非可視領域を含むSAMをプロンプトします。これらの点は、ポイントメモリに保存されます。以前に観測されたインスタンスが後続のフレームで予測されない場合、ポイントメモリから最新の点を取得し、ポイントトラッキング手法を用いて、対応する最後の非可視領域を含むインスタンスマスクと共に、現在のフレームまで追跡します。このように、非可視領域を含むインスタンスセグメンテーションに基づきながらも、動画レベルの非可視領域を含むインスタンスセグメンテーション結果を得ることができます。その結果、提案手法であるS-AModalは、非可視領域を含む動画データのラベル付けを必要とせず、最先端の非可視領域を含む動画インスタンスセグメンテーションを実現します。S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: 自動運転における非視覚情報に基づくビデオインスタンスセグメンテーションのための基礎モデル
リンク: https://arxiv.org/abs/2409.14095
概要:
本研究では、自動運転における非可視領域を含む動画インスタンスセグメンテーションについて考察します。従来の手法では、標準的な動画インスタンスセグメンテーションの手法を応用し、完全にラベル付けされた動画データを用いて学習したモデルに基づいて、非可視領域を含む動画インスタンスセグメンテーションを行っていました。しかし、非可視領域を含む動画データのラベル付けは困難でコストがかかるため、インスタンスセグメンテーションとトラッキング性能の両立が課題となっていました。この問題を解決するために、本研究では、このタスクに対する基盤モデルの適用について検討します。具体的には、セグメント・エニシング・モデル(SAM)の幅広い知識を活用し、非可視領域を含むインスタンスセグメンテーションタスクに合わせて微調整を行います。初期動画インスタンスセグメンテーションに基づき、可視マスクから点をサンプリングして、非可視領域を含むSAMをプロンプトします。これらの点は、ポイントメモリに保存されます。以前に観測されたインスタンスが後続のフレームで予測されない場合、ポイントメモリから最新の点を取得し、ポイントトラッキング手法を用いて、対応する最後の非可視領域を含むインスタンスマスクと共に、現在のフレームまで追跡します。このように、非可視領域を含むインスタンスセグメンテーションに基づきながらも、動画レベルの非可視領域を含むインスタンスセグメンテーション結果を得ることができます。その結果、提案手法であるS-AModalは、非可視領域を含む動画データのラベル付けを必要とせず、最先端の非可視領域を含む動画インスタンスセグメンテーションを実現します。S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されています。