Unsupervised Deep Context Prediction for Background Foreground Separation

1 はじめに

背景の推定と前景の分割は，顕著な動きの検出 [13]，ビデオ監視 [3]，視覚的オブジェクトの追跡 [51]，移動物体の検出 [41, 34, 14]など，いくつかのコンピュータ・ビジョン・アプリケーションの基本的なステップである．背景モデリングの目的は、前景オブジェクトが存在しない状態で、シーンを記述するモデルを効率的かつ正確に抽出することである。背景モデリングは，動的な背景，急激な照明の変化，主にセンサによって引き起こされるカメラのジッタなどがあると困難になる．複雑な背景モデリングは、特に実時間環境を扱う上でそれ自体が困難なタスクであるため、シーンの背景モデリングの比較的単純なシナリオを扱う技術が文献で数多く提案されています[4]。背景減算の問題を解決するために、Staufferら[39]とElgammalら[11]は、統計的背景モデリングに基づいた方法を発表しました。これは、信頼性のない背景モデルから始まり、ビデオシーケンスから抽出された前景オブジェクトの分析により、背景の更新段階で初期エラーを識別し修正する。また、過去数年間に提案された他の手法では、背景の初期化を最適なラベリング問題として解決している[29, 31, 47]。これらの手法では，各画像領域のラベルを計算し，その領域に背景シーンが含まれるような最適なブートストラップシーケンスフレームの番号を提供する．時空間情報を考慮し，コスト関数を最小化することで，最適なフレームを選択する．そして，各領域で選択されたフレームに含まれる背景情報を組み合わせて，背景モデルを生成します。欠落データの再構成に基づく背景モデルの初期化手法も提案されている[38]。これらの方法は，欠損データがブートストラップ・シーケンスをオクルージョンする前景オブジェクトに起因する場合に有効である．そのため、ロバストな行列・テンソル補完アルゴリズム[37]や、インペインティング法[9]が背景の初期化に適していることが示されている。最近では，ディープニューラルネットワークが画像のインペインティングのために導入されている[32]．特に、Chao Yangら[48]は、再構成損失と敵対的損失[15]を組み合わせて学習したCNN（Context Encoder[32]）を用いて、画像の欠損領域を直接推定しています。その後、共同最適化フレームワークにより、推定されたペイントされていない領域を細かいテクスチャの詳細で更新する。これは、グローバルコンテキストに基づく制約とローカルテクスチャに基づく制約の2種類の制約を畳み込みニューラルネットワークでモデル化することにより、欠損画像領域を幻視することで行われます。このフレームワークは、失われた画像構造を推定することができ、非常に高速に評価することができます。

本論文では、シーン背景の初期化を目的として、インペインティング法を用いて欠損画像構造を予測することを提案する。我々の手法をDeep Context Prediction (DCP)と呼んでいるが、これは深層ニューラルネットワークを用いて欠損領域のコンテキストを予測する能力を持つからである。提案したDCPアルゴリズムの視覚的な結果を図1に示す。画像が与えられると，動き情報を利用して動きの速い前景オブジェクトを除去し，画像の欠損領域を残します（図2ステップ(1)参照）．そこで，インペインティング法を用いて，欠損ピクセル値を推定するために，畳み込みニューラルネットワークを学習します． CNNモデルは，画像全体のコンテキストを潜在的な特徴表現に取り込むエンコーダと，この表現を使って画像の欠損コンテンツを生成するデコーダから構成されています．このモデルは、エンコーダー・デコーダーのアーキテクチャが似ていることから、オートエンコーダー[2, 19]と密接な関係があります。提案手法における我々の貢献は、以下のようにまとめられる。

密なオプティカルフロー[26]を用いて，ビデオフレームの時間的情報を抽出する．動きの情報をモーションマスクにマッピングすることで，動きの速い前景オブジェクトをほぼ特定することができる．これらのオブジェクトを排除し，提案するDCPアルゴリズムを用いて背景を推定することで，欠損領域を埋めていく．
提案するDCP法では，シーン固有のデータを用いて，[48]と同様のコンテキストエンコーダを学習する．このネットワークは，ImageNetデータセット[10]で事前に学習されている．DCPは共同最適化フレームワークであり，中央部の形状をインペイントすることで欠落領域のコンテキストを推定し，この予測された情報をModified Poisson Blending (MPB) [1]技術を用いてランダム領域に変換することができる．このフレームワークは，シーン固有のデータで学習されたハイブリッドGANモデルであるグローバルコンテキストベースと，VGG-19ネットワークであるローカルテクスチャベースの2つの制約に基づいています[36]．
前景オブジェクトの検出のために，まずDCPによって背景を推定し，その後，現在のフレームと背景の差分を2値化することで，前景の移動オブジェクトをより正確に検出する．この二値化された差分をモルフォロジカルな操作で強調し，誤検出やノイズの多いピクセル値を除去する．

提案するDCPアルゴリズムは、コンテキスト予測に基づいているため、他の背景初期化アルゴリズムと比較して、同質のコンテキストやぼやけたコンテキストをより正確に予測することができる。背景に動きがある場合でも、DCPは、前景の移動物体のみを除去することを目的としているため、オプティカルフローによってモーションマスクを計算することで、背景を推定することができます。また、DCPは断続的な物体の動きにも影響を受けません。これは前述の理由と同じです。また、雨や雪、霧などの天候条件が厳しい場合でも、オプティカルフローが高密度であれば、前景の移動物体を識別することができるため、それらの物体のみを対象として除去し、背景ピクセルで不塗装することで、DCPは優れた背景推定装置となります。難しい光の状態の場合、DCPは照度の低いシーンのコンテキストにおける均質性のため、背景を正確に推定することができます。

e4exp / paper_manager_abstract

Unsupervised Deep Context Prediction for Background Foreground Separation #528

1 はじめに