Unsupervised Layered Image Decomposition into Object Prototypes

https://arxiv.org/abs/2104.14575
2021

我々は、画像を自動的に発見されたオブジェクトモデルの層に分解するための教師なし学習フレームワークを提案する。オートエンコーダーネットワークを用いて画像レイヤーをモデル化する最近のアプローチとは対照的に、我々はプロトタイプ画像の小さなセットの明示的な変換として画像レイヤーを表現する。我々のモデルには3つの主要な要素がある。

(i) 学習可能な透明チャンネルを持つ画像の形をした、オブジェクトのプロトタイプのセット。 (ii) 与えられた画像の中でスプライトをインスタンス化するために必要なオクルージョンと変換パラメータを予測する微分可能なパラメトリック関数。 (iii) これらのインスタンスを、背景を含む完全な画像に合成するための、オクルージョンを考慮したレイヤー画像形成モデル。本手法は、スプライトとオクルージョン・変形予測を共同で学習して画像を再構成することで、正確なレイヤー画像の分解を実現するだけでなく、オブジェクトのカテゴリやインスタンスのパラメータを特定することができる。

まず、標準的なマルチオブジェクト合成ベンチマーク（Tetrominoes、Multi-dSprites、CLEVR6）において、最新の技術と同等の結果を得ることで、我々のアプローチを検証します。次に、クラスタリング（SVHN、GTSRB）、コセグメンテーション（Weizmann Horse）、フィルタリングされていないソーシャルネットワーク画像からのオブジェクト発見などのタスクにおいて、実画像への本モデルの適用性を実証します。我々の知る限り、我々のアプローチは、オブジェクトタイプの明示的かつ共有された概念を学習する最初の層状画像分解アルゴリズムであり、実画像に適用するのに十分な堅牢性を備えている。

はじめに

本論文の目的は、各層が原型的なオブジェクトの変換されたインスタンスである、画像の層状分解を監督なしで学習することである。このような解釈可能な層状の画像モデルは、オブジェクトの発見[16, 6]、画像編集[75, 21]、将来のフレーム予測[74]、オブジェクトのポーズ推定[57]、環境の抽象化[1, 47]など、数多くのアプリケーションに有益である。この方向での最近の研究[6, 21, 49]では、一般的にオートエンコーダーネットワークでレイヤーを生成することでレイヤー型の画像分解を学習している。これに対して，我々は，透明度のあるプロトタイプの画像の変換を明示的にモデル化する．これらのスプライトは、幾何学的および比色的な変換によってインスタンスにマッピングされ、オブジェクト・レイヤーと呼ばれます。そして，順序付けられたオブジェクト・レイヤーから画像を組み立て，各レイヤーが重なる領域で前のレイヤーを覆い隠すようにする．

我々の合成モデルは，1980年代にコンソールゲームやアーケードゲームで人気を博した，古典的なコンピュータグラフィックスのスプライトモデルを彷彿とさせるものです．古典的なスプライトは，単に異なる位置に配置され，背景と合成されていたが，我々は，Jojic and Freyのビデオモデリングに関する研究[33]と同様の精神でこの概念を再検討し，この用語をより一般的な意味で使用している．我々は、スプライトと、画像を説明するためにそれらの変換を予測するパラメトリック関数の両方を、教師なしで共同学習する。これはMonnierら[55]によってクラスタリングのために設計された最近のDeep Transform-Infariant (DTI)法に関連するものである。しかし、この研究とは異なり、我々は、異なる変換によって説明され、潜在的に互いにオクルードしている、限られた空間サポートを持つ可変数のオブジェクトを含む画像を扱う。この問題は、オブジェクトを独立して扱うことができず、また、可能な画像構成の数がレイヤー数の指数関数的に増加するため、非常に困難なものとなる。 4.1節では，画像分解の評価によく用いられる合成データセットを用いて，我々の手法が最先端の技術と同等であることを実験的に示している[21]．我々の手法は、画像の合成とオブジェクトの変換を明示的にモデル化しているため、これらのデータセット上で単純かつ制御された画像操作を行うことも可能である。さらに重要なことは、我々のモデルが実画像に適用でき（セクション4.2）、オブジェクトとその空間的広がりをうまく識別できることを実証したことである。例えば、人気の高いSVHNベンチマーク[56]では、最新の技術に比べて絶対値で5%向上し、Weizmann Horseデータベース[4]では良好な共分割結果が得られたことを報告する。また，難易度の高いソーシャルネットワーク画像群において，本モデルが前景と背景の識別に成功したことを定性的に示している．

貢献しています。要約すると、以下のようになります。

画像を、変換されたスプライトと背景モデルを重ね合わせたものとして説明する教師なしの学習アプローチ
標準的なマルチオブジェクト合成ベンチマークにおいて、通常のインスタンスセグメンテーション評価に加え、セマンティックセグメンテーションの追加評価を行い、強力な結果を得た。
従来の教師なし画像分解モデルでは実証されていなかった、実画像でのクラスタリングとコセグメンテーションの結果。

コードとデータはプロジェクトのウェブページで公開されています。

https://imagine.enpc.fr/~monniert/DTI-Sprites/

approach

本節では、まず我々の画像形成モデルを紹介し(Sec. 3.1)、次に我々の教師なし学習戦略を説明し(Sec. 3.2)、最後にネットワークのアーキテクチャと計算コストについて簡単に説明します(Sec. 3.3)。図2は、我々のアプローチの概要を示したものである。表記方法 a1:nは、順序付きセット{a1, .. . an}、ピクセル単位の乗算、画像は太字で表記します。サイズH×WのN枚のカラー画像x1:Nが与えられたとき、K個のスプライトのインスタンスによって定義されるL個のオブジェクト層への分解を学習したい。

3.1. 画像形成モデル層状合成プロセス。層状画像モデルに関する初期の研究[52, 33]に触発されて，我々は画像を，互いに重ね合わされたL個のオブジェクト層o1:Lに分解することを提案する．各オブジェクト層 oは，サイズが H × W の 4 チャンネル画像であり，3 つのチャンネルは，着色された RGB の外観画像 o c に対応しており，最後の o α は， o c に対する透明度またはアルファチャンネルである．レイヤーo1:Kが与えられたとき，我々は画像形成プロセスを再帰的な合成として定義する．

スクリーンショット 2021-05-03 13 39 33

ここで、c0 = 0とし、合成の最終結果をcLとします。この処理では、オクルージョンを明示的にモデル化しています。第1のレイヤーはカメラから最も遠い物体に対応し、第Lのレイヤーは最も近い物体で、他のすべての物体を覆い隠します。特に、o α 1 = 1の第1層を使用することで、背景をモデル化しています。式(1)の再帰的プロセスを展開すると、レイヤー合成プロセスはコンパクトな形に書き換えられます。

ここで，δj = 1[j>l] は j > lの指標関数である． δはオクルージョン行列と呼ばれるL×Lの2値行列で、与えられたインデックスjとlに対して、レイヤーjがレイヤーlをオクルージョンしている場合はδjl＝1、そうでない場合はδjl＝0となります。これにより、式(2)を明確に解釈することができます。各レイヤーの外観o^c_lは、それ自身の透明チャンネルo^α_lとそれを遮る他のレイヤーjによってマスクされている、つまり、δjl = 1となります。なお、合成プロセスCδにおいて、δへの依存性を明示的に導入しているのは、後に予測するためであり、これは直感的にはレイヤーの並び替えに対応するものである

スプライトのモデリング各層は，物体のカテゴリを表すプロトタイプともいえる，K個の学習可能なスプライトs1:Kのうちの1つの明示的な変換としてモデル化する．各スプライトs1:Kは，任意のサイズの学習可能な4チャンネルの画像であり，RGBの外観画像s^c_kと透明度チャンネルs^αkである．オブジェクトの数が変化しても対応できるように，オブジェクトが存在しない場合には，K個のスプライト候補に空のスプライトs0 = 0を追加してモデル化し，学習時に空でないスプライトを使用することにペナルティを課す（項3.2参照）．このようなモデル化は、オブジェクトの最大数の上限を知っていることを前提としているが、これはこのような設定ではむしろ標準的なものである。クラスタリングのために設計された最近のDTI（deep transformation-invariant）フレームワーク[55]にヒントを得て，βでパラメータ化された微分可能な変換Tβのファミリー（例えば，空間変換器[29]で実装されたR 6のβを持つアフィン変換）にアクセスできることを仮定し，各層をK個のスプライトの1つに適用された変換Tβの結果としてモデル化する．与えられたレイヤーlに対して，2つの変換のセットを定義する． (i) T^ lay ηl は，ηl でパラメータ化され，そのレイヤーのすべてのスプライトで共有される変換であり， (ii) T^ spr_ νlk は，各スプライトに固有で，ν_lk でパラメータ化された変換である。より正式には，与えられたレイヤlとスプライトkに対して，次のように書く。

これはT spr νlkに含めることもできますが、T lay ηlを分離することで、変換を制限し、悪いローカルミニマムを避けることができます。例えば、T lay ηlは、レイヤー内の全てのスプライトが画像内の同じオブジェクトに注目するような、粗い空間的な位置関係をモデル化するために使用します。逆に，T spr νlk は，局所的な弾性変形など，スプライト固有の変形をモデル化するために使用します。

背景をモデル化する際には，透過性のない K0 個の背景原型 b1:K0 と，異なる変換ファミリー T bkg β0 を考慮する．簡略化のために，背景がない場合の方程式を書き，残りの部分ではスプライト固有の変換を省略し，Tβlk (sk) の代わりに Tβl (sk) と書くことにする．要約すると，我々の画像形成モデルは，オクルージョン行列δ，レイヤーごとのスプライト選択（k1, ... , kL），それに対応する変換パラメータ（β1, ... , βL）によって定義され，以下のような画像xを出力する。

我々の画像形成モデルを図1に示し、図2に詳細な例を示します。

3.2. 学習目的関数を最小化することで，監視なしで画像モデルを学習します．

ここで，s1:Kはスプライト，φ1:Lとψは与えられた画像xiに対する変換パラメータとオクルージョン行列を予測するニューラルネットワーク，λはスカラーハイパーパラメータ，1[kj neq 0]はkj neq 0の指標関数である．最初の和はデータベースの全画像に対するもので，最小値は各層で使用されるスプライトの選択に対応し，2番目の和は空でないスプライトの数をカウントする． λ＞0の場合，この損失は，空ではないスプライトの最小数を用いた再構成を促す．実際には，λ = 10-4 を用いている．この損失は，最も近いプロトタイプまでのユークリッド二乗距離を最小化するK-meansアルゴリズム[50]の勾配ベースの適応[5]や，変換をモデル化したニューラルネットワークを含む変換不変バージョン[55]と類似していることに注意してほしい．前節で述べたレイヤード・コンポジション・モデルに加え、我々のモデルとの主な違いは、L個のスプライト選択に対する共同最適化と、次に述べるオクルージョン・モデリングの2点である。

オクルージョンのモデル化オクルージョンは、式(2)で定義される合成プロセスにおいて、明示的にモデル化されています。 oLは深さによってランク付けされます。しかし、我々は、レイヤーが画像の異なる領域に特化することを学習することを実験的に観察した。これは損失関数の局所的な最小値に対応しているようで、モデルは正しいオクルージョンを予測するためにレイヤーを並べ替えることができません。そこで、モデルをリラックスさせ、オクルージョン行列δ = ψ(x) ∈ [0, 1]L×Lを、固定する代わりに予測します。具体的には、各画像xに対して、ニューラルネットワークとシグモイド関数を用いて、1 /2 L(L - 1)個の値を予測します。これらの値は、対角線がゼロの下三角L×Lの行列に整形され、上部は以下のような対称性で計算されます。 ∀i < j, δij = 1 - δji. このように予測されたオクルージョン行列は二値ではなく、レイヤーの並べ替えには直接変換されませんが、式（2）と各オブジェクトに関連付けられたマスクを使って合成画像を計算することができます。このような行列は、非遷移的なものなど、より複雑なオクルージョン関係をモデル化できることに注意してください。推論の際には、δijをδij > 0.5に置き換えるだけで、2値のオクルージョン関係が得られます。また、真のレイヤー再配置に対応する最も近い行列を計算してみたところ、同様の結果が得られました。なお、背景モデルを使用する場合、そのオクルージョン関係は固定されています（∀j > 1, δj1 = 1）。

トレーニングの詳細我々のトレーニング戦略の2つの要素は、学習の成功に不可欠です。まず、[55]に従い、変換のカリキュラム学習を採用し、最も単純なものから始めます。次に、Tieleman[65]やSCAE[38]にヒントを得て、マスクに一様なノイズを注入し、マスクが二値化するようにします。これにより、カラーチャンネルとアルファチャンネルの間に存在するであろう曖昧さを解消し、明確なマスクを得ることができます。詳細は付録Cを参照してください。オープンソースによる完全な実装とデータは、私たちのウェブページで公開されています。 https://imagine.enpc.fr/~monniert/DTI-Sprites/

3.3. アーキテクチャと計算コストアーキテクチャ全ての実験において，同じパラメータ予測ネットワーク・アーキテクチャを使用した。これは、平均プーリング後に切り捨てられた共有ResNet [26]バックボーンと、各層のスプライト変換パラメータとオクルージョン行列を予測する独立した多層パーセプトロン(MLP)から構成されている。 ResNetのバックボーンには、65×65以下の画像にはmini ResNet-321（64素性）を、それ以外の画像にはResNet-18（512素性）を使用しています。多数の物体（3個以上）をモデル化する場合は、グローバルな平均プーリングを適応的なものに置き換えることで表現サイズを大きくし、mini ResNet-32では4×4×64個、ResNet-18では2×2×512個の特徴量を得ました。各MLPのアーキテクチャは同じで、128個の隠れ層を2つ持っています。

計算コスト。 Nvidia GeForce RTX 2080 Ti GPUを1台使用して、Tetrominoes、Multi-dSprites、CLEVR6をそれぞれ学習した場合、約5時間、3日、3.5日かかります。例えば、CLEVR6 では、16GB の RAM を搭載した V100 GPU 1 台で 128 までのバッチサイズを使用することができます。

4.2.3 フィルタリングされていないウェブ画像コレクションウェブ画像コレクションから発見されたスプライトを可視化することで，我々のアプローチのロバスト性を示した．ここでは，[55]で紹介したのと同じInstagramのコレクションを用いる．各コレクションは，特定のハッシュタグに関連付けられており，128×128にリサイズされ，中央で切り取られた約15k枚の画像を含んでいる．このモデルを，40個のスプライトと背景に適用した．図7は，「#santaphoto」と「#weddingkiss」に関連付けられたInstagramのコレクションから発見された8つの最も質的に優れたスプライトを示している．画像のほとんどがノイズであるこのケースでも、我々のアプローチは、意味のあるスプライトと明確な視覚的バリエーションを持つセグメンテーションを発見することに成功している。例えば、立っているサンタと座っているサンタ、一人でいるサンタと子供に囲まれているサンタなどを区別することができます。さらに、#santaphotoで示された8つのスプライトのうち、いくつかのスプライトについて、再構成と画像合成の例を示します。

結論

我々は、画像をオブジェクト・レイヤーに分解するために、スプライト、変形、オクルージョンを共同で学習する新しい教師なしモデルを導入した。標準的な多オブジェクト合成ベンチマークを超えて、我々のモデルが実際の画像クラスタリングにおいて、SVHNにおける最先端の技術に比べて5％の向上をもたらし、良好なセグメンテーション結果を提供できることを実証しました。さらに、フィルタリングされていないウェブ画像コレクションに対しても、意味のある結果を提供できるだけのロバスト性があることも示しています。我々のオブジェクトモデリングには、ユニークなプロトタイプ画像と、インスタンスの多様性を制限する小さな変換セットが含まれるが、カテゴリーベースの分解モデルを維持しながら、そのような多様性を考慮することは非常に困難であり、我々のアプローチは、我々が知る限り、この方向性を探求する最初のものである。

e4exp / paper_manager_abstract

Unsupervised Layered Image Decomposition into Object Prototypes #450