hajisho / world_model2022_group22

MIT License
0 stars 0 forks source link

Adversarial Environment Generation for Learning to Navigate the Web #21

Open bishopfunc opened 1 year ago

kjboost commented 1 year ago

2103.01991.pdf 2103.01991_J.pdf

kjboost commented 1 year ago

ABSTRACT ウェブを自律的にナビゲートすることを学習することは、難しい逐次的な意思決定タスクである。状態空間と行動空間は大きく、組合せ的な性質がある。 また、ウェブサイトは複数のページで構成される動的な環境である。そのため ウェブナビゲーションエージェントを訓練する際のボトルネックの1つは、学習可能なカリキュラムを提供することである。 また、Webサイトは複数のページからなる動的な環境である。 そこで我々は、敵対的環境生成(AEG)を用いて、強化学習(RL)エージェントの学習環境となるチャレンジングなウェブ環境を生成することを提案する。 を提案する。我々は、新しいベンチマーク環境であるgMiniWoBを提供する。 RL敵対者は構成プリミティブを使用して、任意の複雑なウェブサイトを生成することを学習することができる。 この環境では、RL敵対者は構成プリミティブを利用して任意の複雑なウェブサイトを生成するための学習を行うことができる。敵対者を訓練するために、2つのナビゲータエージェントのスコアの差を用いて後悔を最大化する新しい手法を提案する。 を提案する。その結果、我々のアプローチは最小後悔AEGの先行手法を大幅に上回ることがわかった。後悔の目的により、敵対者は「ちょうどいい」環境のカリキュラムを設計するよう訓練される。 ナビゲータエージェントにとって「ちょうど良い挑戦」となるような環境のカリキュラムを設計するように敵対者を訓練する。我々の技術で訓練されたナビゲーターは の技術で訓練されたナビゲーターエージェントは、困難で高次元のウェブナビゲーションタスクを完了することを学ぶ。 フォーム入力、飛行機の予約などである。本技術で学習させたナビゲータエージェントは 柔軟なb-PAIRED技術で学習させたナビゲータエージェントは、最新のRLウェブナビゲーション技術を含む、競合する自動カリキュラム生成ベースラインを大幅に凌駕することを示す。 RLウェブナビゲーションアプローチを含む、競合の自動カリキュラム生成ベースラインを、一連の困難な未知のテスト環境において、大幅に上回った。 また、いくつかのタスクでは80%以上の成功率を達成した。

www.DeepL.com/Translator(無料版)で翻訳しました。

・gMiniWoBの記載があります。