Open nekonookangae opened 4 years ago
http://openaccess.thecvf.com/content_CVPR_2019/papers/Pal_Zero-Shot_Task_Transfer_CVPR_2019_paper.pdf
Arghya Pal, Vineeth N Balasubramanian / Department of Computer Science and Engineering Indian Institute of Technology, Hyderabad, INDIA
この作業では、グラウンドトゥルース (=学習データの入力と出力データ) が利用できない新しいタスク(ゼロショットタスク)のモデルパラメーターを回帰する新しいメタ学習アルゴリズムを提示します。 新規のゼロショットタスクに適応するために、メタ学習者は既知のタスク(グラウンドトゥルース)のモデルパラメーターと、既知のタスクとゼロショットタスクの相関関係から学習します。 そのような直観は認知科学にその足がかりを見つけます。そこでは、被験者(人間の赤ちゃん)は、明示的な監督を受けることなく、古い概念(手の動きまたは自己運動)と相関させることにより、新しい概念(深さの理解)に適応できます。 Taskonomyデータセットでモデルを評価し、ゼロショットとして4つのタスク(表面法線、部屋のレイアウト、深度、カメラポーズの推定)を使用しました。 これらのタスクは、データ取得の複雑さと、ディープネットワークを使用した学習プロセスに関連する複雑さに基づいて選択されました。 提案された方法論は、各ゼロショットタスクで最先端のモデル(グラウンドトゥルースを使用)を上回っており、ゼロショットタスクの転移の可能性を示しています。 また、方法論のさまざまな選択肢を研究するために大規模な実験を行い、提案された方法が転移学習でどのように使用できるかを示しました。 私たちの知る限り、これはタスク空間でのゼロショット学習に対する最初のそのような取り組みです。
最新のコンピュータービジョン、機械学習、およびディープニューラルネットワークモデルの主な推進力は、大量の収集し整理されたラベル付きデータの可用性です。 ディープモデルは、さまざまなビジョンタスクに関する最新の性能を示しています。 実際に機能する効果的なモデルでは、パラメーターの量が多いため、非常に多くのラベル付きデータが必要になります。 すべてのビジョンタスクで手作業での大規模なラベル付きデータセットを期待することは現実的ではありません。 一部のタスクには、広範な分野の専門知識、長時間の人的労力、高価なデータ収集センサーが必要です。これらは、全体としてプロセス全体を非常に高価にします。 クラウドソーシング(Amazon Mechanical Turkなど)を使用してデータのラベリングを実行する場合でも、取得したラベルの正確さ(または良さ)を測定するには追加の作業が必要です。 このため、多くのビジョンタスクは高価であると見なされており、専門家はそのようなタスクを避けるか、モデルの性能が低下する可能性を許容しつつデータ量を減らして続行します。つまり、ラベル付けされたデータなしでタスクのモデルパラメーターを取得できる代替アプローチを構築するために、この作業でこの問題に対処しようとします。 基本的な認識設定からゼロショット学習の定義を拡張して、作業をゼロショットタスク転移と呼びます。 認知研究は、被験者(人間の赤ちゃん)が明示的な教師を使わずに既知の概念(手の動きまたは自己運動)と相互に関連させることにより、新しい概念(例:深層理解)に適応できる結果を示します[15]。 同様の考えで、Ground Truth (学習データの入力と出力データ) が利用できない新しいタスク(ゼロショットタスクと呼ばれる)のEncoder-Decoder パラメータを計算するメタ学習(学習方法を学ぶための学習) アルゴリズムを紹介します。 ゼロショットタスクに適応するために、メタ学習者は、既知のタスク(グラウンドトゥルース)のEncoder-Decoderパラメータと、新しいタスクとのタスク相関から学習します。 正式には、m個の既知のタスクの知識が与えられた場合{τ^ 1、・・・、τ^ m}、メタ学習器F(.)を使用して、新規タスクτ^(m + 1)のパラメーターを推定できます。 Encoder-Decoderの添え字、つまり、i番目のタスクτ^ iのτ_E^ iとτ_D^ iは、説明を簡単にするために削除しています。 ただし、タスク間の関係についての知識がないと、その出力がメタ多様体上の任意のポイントにマップされる可能性があるため、メタ学習者を学習することは妥当ではない場合があります(図1を参照)。 したがって、既知のタスクと新規タスクの間のタスク相関を、フレームワークへの追加入力として検討します。 タスクの相関関係を取得する方法については、さまざまな概念があります。 この作業では、この目的のために知恵のアプローチを使用します。 多くの視覚および非視覚の機械学習アプリケーションは、そのような集団の知恵を学習方法にエンコードします。 集団からタスク相関知識を収集することは、高速で安価であり、ドメイン知識をもたらします。 モデルの既知のタスクとゼロショットタスク間のタスク相関を統合するために、集団票の忠実度の高い集計が使用されます。 ただし、フレームワークでは、クラウドソーシング以外のタスク相関のソースを認めることができます。 タスク相関を活用するという私たちの幅広いアイデアは、最近提案されたTaskonomyのアイデアに似ていますが、私たちの方法と目的は多くの点で異なります。 (i)Taskonomyは、タスクの相関を研究して、あるタスクモデルを別のタスクモデルに転移する方法を見つけます。一方、この方法は、ラベル付きデータが利用できないゼロショットタスクに推定します。 (ii)新しいタスクに適応するために、Taskonomyはかなりの量の正解ラベルデータを必要としますが、作業では正解ラベルデータ(実際は目標)は必要ありません。 (iii)Taskonomyは、ニューラルネットワークによって学習された表現に基づいてタスク転移グラフを取得します。本研究では、タスクの相関を活用して新しいタスクを学習します。 (iv)最後に、本手法を使用して、複数の新しいタスクを同時に学習できます。 前述のように、クラウドソーシングされたタスク相関を使用しますが、タスク相関の他のコンパクトな概念は、方法論で簡単にエンコードできます。より正確には、本研究での私たちの提案は、最適なタスク関係を学ぶことではなく、ゼロショットタスクに外挿 (道の状態から推定して適応?) することです。 私たちの貢献は次のように要約できます。 •ラベル付きデータなしでビジョンタスクを解決するために使用されるゼロショットタスクパラメーターを推測する新しい方法論を提案します。 •この方法論は、実験で示したように、複数のゼロショットタスクを同時に解決するように拡張できます。 私たちの方法論は、既知のタスクの小さいセットを検討することによりほぼ最新の結果を提供し、ラベル付きデータなしで学習されているにもかかわらず、既知のすべてのタスクを使用する場合、最新のモデル(学習データの入力と出力データを使って学習する)よりも優れています。 •また、転移学習環境で本手法をどのように使用できるかを示し、提案された方法の有効性を研究するためのさまざまな実験を実施します。
一言でいうと
論文リンク
http://openaccess.thecvf.com/content_CVPR_2019/papers/Pal_Zero-Shot_Task_Transfer_CVPR_2019_paper.pdf
著者/所属機関
Arghya Pal, Vineeth N Balasubramanian / Department of Computer Science and Engineering Indian Institute of Technology, Hyderabad, INDIA
投稿日付
概要
この作業では、グラウンドトゥルース (=学習データの入力と出力データ) が利用できない新しいタスク(ゼロショットタスク)のモデルパラメーターを回帰する新しいメタ学習アルゴリズムを提示します。 新規のゼロショットタスクに適応するために、メタ学習者は既知のタスク(グラウンドトゥルース)のモデルパラメーターと、既知のタスクとゼロショットタスクの相関関係から学習します。 そのような直観は認知科学にその足がかりを見つけます。そこでは、被験者(人間の赤ちゃん)は、明示的な監督を受けることなく、古い概念(手の動きまたは自己運動)と相関させることにより、新しい概念(深さの理解)に適応できます。 Taskonomyデータセットでモデルを評価し、ゼロショットとして4つのタスク(表面法線、部屋のレイアウト、深度、カメラポーズの推定)を使用しました。 これらのタスクは、データ取得の複雑さと、ディープネットワークを使用した学習プロセスに関連する複雑さに基づいて選択されました。 提案された方法論は、各ゼロショットタスクで最先端のモデル(グラウンドトゥルースを使用)を上回っており、ゼロショットタスクの転移の可能性を示しています。 また、方法論のさまざまな選択肢を研究するために大規模な実験を行い、提案された方法が転移学習でどのように使用できるかを示しました。 私たちの知る限り、これはタスク空間でのゼロショット学習に対する最初のそのような取り組みです。
はじめに
最新のコンピュータービジョン、機械学習、およびディープニューラルネットワークモデルの主な推進力は、大量の収集し整理されたラベル付きデータの可用性です。 ディープモデルは、さまざまなビジョンタスクに関する最新の性能を示しています。 実際に機能する効果的なモデルでは、パラメーターの量が多いため、非常に多くのラベル付きデータが必要になります。 すべてのビジョンタスクで手作業での大規模なラベル付きデータセットを期待することは現実的ではありません。 一部のタスクには、広範な分野の専門知識、長時間の人的労力、高価なデータ収集センサーが必要です。これらは、全体としてプロセス全体を非常に高価にします。 クラウドソーシング(Amazon Mechanical Turkなど)を使用してデータのラベリングを実行する場合でも、取得したラベルの正確さ(または良さ)を測定するには追加の作業が必要です。 このため、多くのビジョンタスクは高価であると見なされており、専門家はそのようなタスクを避けるか、モデルの性能が低下する可能性を許容しつつデータ量を減らして続行します。つまり、ラベル付けされたデータなしでタスクのモデルパラメーターを取得できる代替アプローチを構築するために、この作業でこの問題に対処しようとします。 基本的な認識設定からゼロショット学習の定義を拡張して、作業をゼロショットタスク転移と呼びます。 認知研究は、被験者(人間の赤ちゃん)が明示的な教師を使わずに既知の概念(手の動きまたは自己運動)と相互に関連させることにより、新しい概念(例:深層理解)に適応できる結果を示します[15]。 同様の考えで、Ground Truth (学習データの入力と出力データ) が利用できない新しいタスク(ゼロショットタスクと呼ばれる)のEncoder-Decoder パラメータを計算するメタ学習(学習方法を学ぶための学習) アルゴリズムを紹介します。 ゼロショットタスクに適応するために、メタ学習者は、既知のタスク(グラウンドトゥルース)のEncoder-Decoderパラメータと、新しいタスクとのタスク相関から学習します。 正式には、m個の既知のタスクの知識が与えられた場合{τ^ 1、・・・、τ^ m}、メタ学習器F(.)を使用して、新規タスクτ^(m + 1)のパラメーターを推定できます。 Encoder-Decoderの添え字、つまり、i番目のタスクτ^ iのτ_E^ iとτ_D^ iは、説明を簡単にするために削除しています。 ただし、タスク間の関係についての知識がないと、その出力がメタ多様体上の任意のポイントにマップされる可能性があるため、メタ学習者を学習することは妥当ではない場合があります(図1を参照)。 したがって、既知のタスクと新規タスクの間のタスク相関を、フレームワークへの追加入力として検討します。 タスクの相関関係を取得する方法については、さまざまな概念があります。 この作業では、この目的のために知恵のアプローチを使用します。 多くの視覚および非視覚の機械学習アプリケーションは、そのような集団の知恵を学習方法にエンコードします。 集団からタスク相関知識を収集することは、高速で安価であり、ドメイン知識をもたらします。 モデルの既知のタスクとゼロショットタスク間のタスク相関を統合するために、集団票の忠実度の高い集計が使用されます。 ただし、フレームワークでは、クラウドソーシング以外のタスク相関のソースを認めることができます。 タスク相関を活用するという私たちの幅広いアイデアは、最近提案されたTaskonomyのアイデアに似ていますが、私たちの方法と目的は多くの点で異なります。 (i)Taskonomyは、タスクの相関を研究して、あるタスクモデルを別のタスクモデルに転移する方法を見つけます。一方、この方法は、ラベル付きデータが利用できないゼロショットタスクに推定します。 (ii)新しいタスクに適応するために、Taskonomyはかなりの量の正解ラベルデータを必要としますが、作業では正解ラベルデータ(実際は目標)は必要ありません。 (iii)Taskonomyは、ニューラルネットワークによって学習された表現に基づいてタスク転移グラフを取得します。本研究では、タスクの相関を活用して新しいタスクを学習します。 (iv)最後に、本手法を使用して、複数の新しいタスクを同時に学習できます。 前述のように、クラウドソーシングされたタスク相関を使用しますが、タスク相関の他のコンパクトな概念は、方法論で簡単にエンコードできます。より正確には、本研究での私たちの提案は、最適なタスク関係を学ぶことではなく、ゼロショットタスクに外挿 (道の状態から推定して適応?) することです。 私たちの貢献は次のように要約できます。 •ラベル付きデータなしでビジョンタスクを解決するために使用されるゼロショットタスクパラメーターを推測する新しい方法論を提案します。 •この方法論は、実験で示したように、複数のゼロショットタスクを同時に解決するように拡張できます。 私たちの方法論は、既知のタスクの小さいセットを検討することによりほぼ最新の結果を提供し、ラベル付きデータなしで学習されているにもかかわらず、既知のすべてのタスクを使用する場合、最新のモデル(学習データの入力と出力データを使って学習する)よりも優れています。 •また、転移学習環境で本手法をどのように使用できるかを示し、提案された方法の有効性を研究するためのさまざまな実験を実施します。
新規性・差分
手法
結果
コメント
実装