REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS

一言でいうと

教師なしの補助タスクを同時に行う強化学習の手法UNsupervised REinforcement and Auxiliary Learning (UNREAL)を提案。画像入力3D迷路で従来手法に対し10倍の学習速度、人間の87%のスコア、Atariで人間の9倍のスコア。

論文リンク

https://arxiv.org/abs/1611.05397

著者/所属機関

Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, David Silver & Koray Kavukcuoglu DeepMind London, UK

概要

教師なしの補助タスクを同時に行う強化学習の手法UNsupervised REinforcement and Auxiliary Learning (UNREAL)を提案。A3CをベースにA3Cとは別のポリシーの補助タスクを学習、補助タスクは直接エージェントの行動に影響はしないがそのポリシーのネットワークの一部としてA3Cのネットワークを更新する為、結果として行動決定するネットワークも更新される。目的関数の言葉で言えば通常の強化学習アルゴリズムの目的関数に加え補助タスクを実現するための目的関数を加えた目的関数でメインのタスクと補助タスクを同時にそこそこできるように学習する。教師なしの補助タスクとして、"入力画像ができるだけ変化するようにするタスク"、"過去数フレームから次の行動の報酬が正/負/0かあてるタスク"、"隠れ層ができるだけActivateするタスク"等を利用。画像入力の3D迷路タスクLabyrinthでA3Cに対し10倍の学習速度、人間の87%のスコア、Atariで人間の9倍のスコア。

arXivTimes / arXivTimes