e4exp / paper_manager_abstract

0 stars 0 forks source link

Unsupervised learning of foreground object detection #523

Open e4exp opened 3 years ago

e4exp commented 3 years ago

教師なし学習は、今日のコンピュータビジョンにおける最も困難な課題の一つである。 この課題は、ラベルの付いていない動画を比較的低コストで大量に収集できるため、人工知能や新技術への応用など、実用的な価値が非常に高い。 本論文では、単一の画像内の主要な前景オブジェクトを検出するという文脈で、教師なし学習問題に取り組みます。 生徒用のディープネットワークを学習させ、動画や大規模な画像コレクションにおいて教師なしでオブジェクト検出を行う教師用パスウェイの出力を予測する。

私たちのアプローチは、これまでに発表された教師なしオブジェクト検出の手法とは異なります。 教師なし学習の段階を学習時に進め、テスト時には生徒の経路に沿って標準的なフィードフォワード処理を適用します。 この戦略は、トレーニング時には一般化の可能性を高め、テスト時には高速性を維持できるという利点があります。 私たちの教師なし学習アルゴリズムは、生徒と教師のトレーニングを数世代にわたって行うことができます。 そのため,第1世代で学習された学生ネットワークのグループが,次の世代の教師をまとめて作成することができます. 実験では,ビデオの中の物体発見,教師なしの画像セグメンテーション,顕著性検出の3つのデータセットにおいて,提案手法は最高の結果を得た. また、テスト時には、提案システムは、既存の教師なし手法よりも1~2桁ほど高速である。

e4exp commented 3 years ago

1 はじめに

教師なし学習は,今日のコンピュータビジョンや機械学習において,最も困難で興味深い問題の一つです。 多くの研究者は,ラベルのない動画の大規模なコレクションから学習することで,知能や学習の本質に関する難しい問題を解明できると考えている。 さらに、ラベルのない動画は比較的低コストで簡単に収集できるため、教師なし学習は多くのコンピュータビジョンやロボット工学のアプリケーションで実用的な価値を持つ可能性がある。 この記事では、教師なし学習の新しいアプローチを提案し、このタスクに関連する多くの課題にうまく取り組んでいます。 このシステムは、2つの主要な経路で構成されており、1つは教師の枝に沿ってビデオや大規模な画像コレクションから教師なしでオブジェクトを発見するものであり、もう1つは学生の枝で、教師から学習して単一の画像から前景オブジェクトを検出するものである。 我々のアプローチは、生徒や教師の経路が特定のニューラルネットワークのアーキテクチャや実装に依存しないという意味で一般的です。 また,この手法では,教師なしの学習プロセスを,複数の世代の生徒と教師に渡って継続することができます. アルゴリズム1では、我々の手法を高レベルで説明しています。 この論文では、アルゴリズム1の「世代」と「反復」という用語を互換的に使用します。 この研究の予備的なバージョンは、複数の世代にわたる学習の可能性を提示せず、実験結果も少なく、ICCV 2017で発表されました(Croitoru et al (2017))。 図1では、我々の完全なシステムの概要を示しています。 教師なしの学習段階では、学生ネットワーク(モジュールA)は、教師なしの教師経路(モジュールBおよびC)から、単一の画像で類似のオブジェクトマスクを生成することをフレームごとに学習します。 学生ネットワークは、現在のフレームという単一の画像のみを入力として、各フレームで教師の出力を模倣しようとします。 一方,教師はビデオ・シーケンス全体にアクセスできます. アルゴリズム1に示された方法は,システムが1つの反復(世代)から次の世代へと学習していく際の主要なステップを示しています. これらのステップについては、セクション3で詳しく説明します。

アルゴリズム1の最初の反復では、教師のパスウェイは時間的な情報、つまりビデオにアクセスできます。 対照的に、生徒はより深い構造を持っていますが、単一の画像(現在のビデオフレーム)にしかアクセスできません。 このように、教師が時間的に発見した情報を、生徒は抽象化されたニューラル層を介して、さらに深く捕捉します。 最初の反復では、異なるアーキテクチャを持つ複数の生徒のネットが学習されます。 教師用信号として良質なマスクのみを使用するために、セクション4で説明するように、教師なしのマスク選択手順が適用されます。 複数の学生ネットが学習されると、それらの出力は次の反復で教師を形成するために結合されます。 そして、次の世代では、新たに形成された教師を、より大きなラベルなしのビデオセットで実行し、次の世代の学生に対する監視信号を生成します。 なお、最初の反復では、教師の経路はビデオシーケンスを入力として受け取る必要がありますが、第2世代以降では、大規模な画像コレクションも入力として受け取ることが可能になります。 学習時には非常に高い計算コストとストレージコストがかかるため、今回の実験では2世代にわたる学習に限定していますが、我々のアルゴリズムは一般的なものであり、何度も反復して実行することができます。 しかし、我々のアルゴリズムは一般的なものであり、何度も繰り返し実行することができます。 我々は、広範な実験により、2世代であっても、ビデオや画像内のオブジェクト発見に関する現在の技術水準を大幅に上回ることを示しました。 また、ある世代から次の世代への確実な改善も示しています。 次に、我々のアプローチの主な貢献を列挙します。

1) 動画から教師なしで学習し、画像中の前景オブジェクトを検出する新しいアプローチを紹介します。我々のシステムとアルゴリズムの概要を図1とアルゴリズム1に示す。このシステムには、2つの主要な経路があります。1つは教師の役割を果たし、ビデオや大規模な画像のコレクションの中からオブジェクトを発見する経路、もう1つは生徒の役割を果たし、教師から学習して単一の入力画像の中から前景オブジェクトを検出する経路です。本研究では,生徒と教師の複数の世代にわたって教師なしで学習するための一般的なアルゴリズムを提供する.また,様々なタイプの生徒のネットを用いて実験を行い,それらがどのように連携して次の世代の教師を形成するかを示す.これは、新しい教師なしのソフトマスク選択スキームと組み合わせて行われます。実験の結果、1つの世代内では、学生が教師よりも強力であり、一方で、両方の経路が1つの世代から次の世代へと大きく改善されることを実証しました。

2) より高いレベルでは、我々の提案するアルゴリズムは、異なる実装やニューラルネットワークのアーキテクチャに対応するために十分に一般的である。本論文では、具体的な実装も提供しており、詳細に説明する。我々は、YouTube Objects (Prest et al (2012))、Object Discovery in Internet Images (Rubinstein et al (2013))、Pascal-S (Li et al (2014))という3つの最近のデータセットでその性能を実証し、最先端の結果を得ることができた。我々の知る限り、Pascal-Sは、テスト時に1枚の画像しか必要とせず、事前に訓練された特徴を与えたり、手動でラベル付けしたりすることなく、教師なしの方法で画像内の前景オブジェクトの検出とセグメント化を学習する最初のシステムです。

image