Learning to Navigate the Web

Summary

どんなもの？（Abstract,Conclusion）報酬が疎であり, 行動が大きいweb navigation環境で、DQN エージェントをトレーニングするためのデモを使う場合と使わない場合の 2 つのアプローチを提示した。デモがある場合は、カリキュラム学習により、難しい命令を複数の下位命令に分解する。デモがない場合、メタトレーナーよりゴール状態と命令の組みを生成し、QWebの学習を効率化する。QWebのモデルは、人間によるデモがなくても高い成果を得る。QWebエージェントはWorld of Bitsベンチマークにおいてデモなしに100%の成功率を獲得した。
先行研究と比べてどこがすごいの？（先行研究,どんな問題を解決した）フライト予約環境では、各エピソードに 1,700 を超える語彙と約 100 の Web 要素があるため、可能な指示/タスクの数は 1,400 万を超える可能性がある。報酬が疎な強化学習ではほとんどのエピソードで信号が生成されない。これを解決する従来の方法は、人間のデモから学習し、事前にトレーニングされた単語の埋め込みを使用することである。ただ、環境ごとに別々のデモを使っていることも課題である。
技術や手法の"キモ"はどこにある？(新規点,どう解決した) 2つの学習器(trainer)curriculum-DQN and instructor meta-trainerを提案、2つのニューラルアーキテクチャQWeb, INETを提案。
どうやって有効だと検証した？（実験手法） Miniwob と Miniwob++で実行し, SHI17(オリジナル), LIU18(ワークフロー),Qweb
議論はあるか？（未解決点,応用例）
次に読むべき論文？
（任意）より詳しい手法の理解

論文情報・リンク

Gur, Izzeddin, Ulrich Rückert, Aleksandra Faust and Dilek Z. Hakkani-Tür. “Learning to Navigate the Web.” ArXiv abs/1812.09195 (2018): n. pag
Google Scholar 被引用数:
国際会議:

hajisho / world_model2022_group22

Learning to Navigate the Web #6

Summary

論文情報・リンク