e4exp / paper_manager_abstract

0 stars 0 forks source link

Unsupervised Deep Context Prediction for Background Foreground Separation #528

Open e4exp opened 3 years ago

e4exp commented 3 years ago

ビデオベースの高度なアプリケーションの多くでは、トラッキングやビデオ監視アプリケーションなどの冗長なデータを除去するために、背景モデリングが前処理として行われています。 過去数年間、背景減算は、生の色成分、グラデーション、またはローカルバイナリパターンなどの低レベルの特徴または手作りの特徴に基づいて行われてきました。 しかし、背景減算アルゴリズムは、動的な背景、フォトメトリックな変化、カメラのジッター、影などの様々な課題があると、性能が低下してしまいます。 これらの課題に対処し、正確な背景モデリングを行うために、我々は、画像インペインティングのアルゴリズムに基づいた統一的なフレームワークを提案する。 これは、文脈予測に基づいた、教師なしの視覚的特徴学習ハイブリッド生成アドバーサリア・アルゴリズムです。 また、ポアソンブレンディング技術を用いて、中心領域のインペインティングとランダム領域のインペインティングを融合することで、ランダム領域のインペインティングの解決策を提示した。 さらに,提案手法とモルフォロジカル演算を融合した前景物体検出の評価も行った. 提案手法と最新の12の手法を比較した結果,提案手法が背景推定や前景検出のアプリケーションにおいて安定していることがわかった.

e4exp commented 3 years ago

1 はじめに

背景の推定と前景の分割は,顕著な動きの検出 [13],ビデオ監視 [3],視覚的オブジェクトの追跡 [51],移動物体の検出 [41, 34, 14]など,いくつかのコンピュータ・ビジョン・アプリケーションの基本的なステップである. 背景モデリングの目的は、前景オブジェクトが存在しない状態で、シーンを記述するモデルを効率的かつ正確に抽出することである。 背景モデリングは,動的な背景,急激な照明の変化,主にセンサによって引き起こされるカメラのジッタなどがあると困難になる. 複雑な背景モデリングは、特に実時間環境を扱う上でそれ自体が困難なタスクであるため、シーンの背景モデリングの比較的単純なシナリオを扱う技術が文献で数多く提案されています[4]。 背景減算の問題を解決するために、Staufferら[39]とElgammalら[11]は、統計的背景モデリングに基づいた方法を発表しました。 これは、信頼性のない背景モデルから始まり、ビデオシーケンスから抽出された前景オブジェクトの分析により、背景の更新段階で初期エラーを識別し修正する。 また、過去数年間に提案された他の手法では、背景の初期化を最適なラベリング問題として解決している[29, 31, 47]。 これらの手法では,各画像領域のラベルを計算し,その領域に背景シーンが含まれるような最適なブートストラップシーケンスフレームの番号を提供する. 時空間情報を考慮し,コスト関数を最小化することで,最適なフレームを選択する. そして,各領域で選択されたフレームに含まれる背景情報を組み合わせて,背景モデルを生成します。 欠落データの再構成に基づく背景モデルの初期化手法も提案されている[38]。 これらの方法は,欠損データがブートストラップ・シーケンスをオクルージョンする前景オブジェクトに起因する場合に有効である. そのため、ロバストな行列・テンソル補完アルゴリズム[37]や、インペインティング法[9]が背景の初期化に適していることが示されている。 最近では,ディープニューラルネットワークが画像のインペインティングのために導入されている[32]. 特に、Chao Yangら[48]は、再構成損失と敵対的損失[15]を組み合わせて学習したCNN(Context Encoder[32])を用いて、画像の欠損領域を直接推定しています。 その後、共同最適化フレームワークにより、推定されたペイントされていない領域を細かいテクスチャの詳細で更新する。 これは、グローバルコンテキストに基づく制約とローカルテクスチャに基づく制約の2種類の制約を畳み込みニューラルネットワークでモデル化することにより、欠損画像領域を幻視することで行われます。 このフレームワークは、失われた画像構造を推定することができ、非常に高速に評価することができます。

本論文では、シーン背景の初期化を目的として、インペインティング法を用いて欠損画像構造を予測することを提案する。 我々の手法をDeep Context Prediction (DCP)と呼んでいるが、これは深層ニューラルネットワークを用いて欠損領域のコンテキストを予測する能力を持つからである。 提案したDCPアルゴリズムの視覚的な結果を図1に示す。 画像が与えられると,動き情報を利用して動きの速い前景オブジェクトを除去し,画像の欠損領域を残します(図2ステップ(1)参照). そこで,インペインティング法を用いて,欠損ピクセル値を推定するために,畳み込みニューラルネットワークを学習します. CNNモデルは,画像全体のコンテキストを潜在的な特徴表現に取り込むエンコーダと,この表現を使って画像の欠損コンテンツを生成するデコーダから構成されています. このモデルは、エンコーダー・デコーダーのアーキテクチャが似ていることから、オートエンコーダー[2, 19]と密接な関係があります。 提案手法における我々の貢献は、以下のようにまとめられる。

提案するDCPアルゴリズムは、コンテキスト予測に基づいているため、他の背景初期化アルゴリズムと比較して、同質のコンテキストやぼやけたコンテキストをより正確に予測することができる。 背景に動きがある場合でも、DCPは、前景の移動物体のみを除去することを目的としているため、オプティカルフローによってモーションマスクを計算することで、背景を推定することができます。 また、DCPは断続的な物体の動きにも影響を受けません。 これは前述の理由と同じです。 また、雨や雪、霧などの天候条件が厳しい場合でも、オプティカルフローが高密度であれば、前景の移動物体を識別することができるため、それらの物体のみを対象として除去し、背景ピクセルで不塗装することで、DCPは優れた背景推定装置となります。 難しい光の状態の場合、DCPは照度の低いシーンのコンテキストにおける均質性のため、背景を正確に推定することができます。

image