e4exp / paper_manager_abstract

0 stars 0 forks source link

Curious Representation Learning for Embodied Intelligence #454

Open e4exp opened 3 years ago

e4exp commented 3 years ago

近年、自己教師付き表現学習が大きな成功を収めている。 教師付きラベルの必要性を排除することで、インターネット上や写真データセットに存在する多数のラベル無し画像を利用することができる。 しかし、真に知的なエージェントを構築するためには、データセットからの学習だけでなく、環境からの学習も可能な表現学習アルゴリズムを構築する必要がある。 自然環境の中にいるエージェントは、通常、精選されたデータを与えられることはない。 代わりに、エージェントは環境を探索して、学習に必要なデータを取得しなければならない。 我々は、強化学習の方針と視覚的表現モデルを共同で学習するフレームワーク、Curious representation learning (CRL)を提案する。

強化学習方針は、表現学習者の誤差を最大化するように学習され、そうすることで環境を探索するインセンティブを得ることができる。 同時に、学習した表現は、ポリシーが学習すべき難しいデータを与えている間に、どんどん強くなっていきます。 我々が学習した表現は、下流のナビゲーションタスクへの移行が期待でき、監視を全く使用せずにImageNetの事前学習よりも優れた、または同等の性能を発揮する。 さらに、シミュレーションで学習したにもかかわらず、学習した表現は実画像で解釈可能な結果を得ることができます。

e4exp commented 3 years ago
  1. はじめに

生物学的エージェントと同様に,自己教師付きエージェントは,明示的な教師のラベルなしに表現を学習する[36]. 驚くべきことに,これらの手法は教師付き学習に基づく手法を上回ることができる[11]. しかし、最も成功しているアプローチは、精選された観測データセットに依存して学習するという点で、生物学的学習とは異なる。 これとは対照的に,生物学的視覚の学習では,環境を物理的に探索することが必要である. 乳児には既存の視覚経験はなく、周囲の環境から視覚経験を得るために探索しなければなりません。 乳児はおもちゃで遊ぶことで,押したり,つかんだり,吸ったり,突いたりすることで,感触や素材,物理的な経験を得ることができる[18]. 幼児は、新しい部屋に這い入ることで、レイアウトや幾何学の経験を得る。 このような環境では,視覚的な表現を学習する上で,さらなる課題が生じます. アルゴリズムは、環境のどの部分を選択的に探索し、最も有用な視覚的経験を増やすことができるかを判断しなければなりません。 さらに、アルゴリズムは、常に領域が移動することにも対応しなければなりません。 つまり、どの時点でも、特定の部屋や特定のオブジェクトが操作されているときの視覚体験しか観察されないのです。 インタラクティブな環境で、事前のデータやタスクがない場合、どのようにして優れた視覚的表現を得ることができるのでしょうか? これは難しい問題で、エージェントはいくつかのサブクエスチョンに答える必要があります。 特に、周囲の世界を効果的に探索し、認識することをどのように学ぶことができるでしょうか? そして、最良の表現を得るために、それぞれの異なる経験をどのように統合することができるのでしょうか? 本論文では、これらの課題を解決するための統一的なフレームワークを提案する。

1つのアプローチは、ビジョンベースの強化学習エージェントをインタラクティブな環境でトレーニングすることです。 直感的には、エージェントが周囲の環境との相互作用を学習すると、その下にあるビジョンシステムも周囲の環境を理解できるようにならなければなりません。 しかし、強化学習が提供する監視は、ノイズが多く、まばらであるため、強力なビジョンシステムの形成が阻害されるという問題があります。 そこで、自己教師付きの表現学習技術を用いて、具象環境における表現を学習するというアプローチが考えられます。 表現を学習するためのデータを集めるために、別の探索アルゴリズムを使用することができる。 しかし、このようなアプローチには新たな課題がある。 表現を学習するための多様なデータを得るために、どのようにして効率的な探索を学習すればよいのか。 また、どのようにして、我々のアルゴリズムにとって視覚的に重要な画像を継続的に集めることができるのか? これらの問題を解決するために、我々はCurious Representation Learning (CRL 図1)という統一されたフレームワークを提案する。 これは、強化学習(RL)を用いて、自己監視型表現学習モデルの損失に等しい報酬を最大化することにより、自己監視型表現学習手法が与えられたときに、探索方針を自動的に学習するというものである。 そして、探索方針によって得られた画像の損失を最小化することで、自己教師付きモデルを学習する。 探索ポリシーの報酬をこのように定義することで、視覚的な新しさの自然な尺度として機能します。 見慣れない画像の場合にのみ、損失が大きくなるからです(これらの画像でモデルが学習されないため)。 このようにして、私たちのポリシーは、周囲の環境を探索することと、過去に見た画像とは視覚的に異なる画像を得ることの両方を学習します。 同時に、我々の自己教師付きモデルは、モデルにとって視覚的に重要であるように特別に得られた多様な画像から利益を得ます。

具象化された視覚表現があれば、それを下流のインタラクティブなタスクにどのように利用できるかをさらに研究します。 強化学習や行動クローニングによるインタラクティブな学習は、フィードバックが希薄でノイズが多いことが特徴です。 個々のインタラクションからのフィードバックは、時間的に遅れたり、タスクの完了に依存したりすることが多く、タスクが失敗した場合にはフィードバックにはほとんど情報が含まれず、他の行動がタスクの完了に影響する場合には矛盾した結果が得られる。 このようなノイズは、学習した視覚的表現をすぐに破壊してしまいます。 我々は、下流のインタラクティブな転送を可能にするためには、転送前に視覚ネットワークの重みを凍結することが重要であることを発見した。 この方法は、RLポリシーのセマンティックナビゲーション性能や、模倣学習を用いた視覚言語ナビゲーション性能を大幅に向上させることができることを確認した。 本論文の貢献は3つあります。 まず、CRLを身体表現学習のアプローチとして紹介する。 CRLでは、表現学習モデルが探索政策とミニマックスゲームを行う。 第二に、学習された視覚表現は、様々な身体的タスクに役立つことを示す。 これらのタスクでは、良いパフォーマンスを可能にするために表現を自由にすることが重要である。 最後に、我々の表現は完全にシミュレーションで学習されたものであるが、実際の写真に対して解釈可能な結果を得ることができることを示す。

e4exp commented 3 years ago
  1. 結論

本論文では、具象環境においてタスクに依存しない視覚表現を学習するための汎用フレームワークを提案した。 我々の学習した表現は、下流の意味論的および言語的ガイド付きナビゲーションタスクに有望な移行を可能にし、さらに実物の写真の視覚認識にも移行できる。 我々の提案したフレームワークが、より優れたタスク不可知論的な表現を学習し、より複雑な身体的タスクに移行するための将来の研究を刺激することを期待している[16]。