hajisho / world_model2022_group22

MIT License
0 stars 0 forks source link

Learning to Navigate the Web #6

Open bishopfunc opened 1 year ago

bishopfunc commented 1 year ago

Summary

  1. どんなもの?(Abstract,Conclusion) 報酬が疎であり, 行動が大きいweb navigation環境で、DQN エージェントをトレーニングするためのデモを使う場合と使わない場合の 2 つのアプローチを提示した。デモがある場合は、カリキュラム学習により、難しい命令を複数の下位命令に分解する。デモがない場合、メタトレーナーよりゴール状態と命令の組みを生成し、QWebの学習を効率化する。QWebのモデルは、人間によるデモがなくても高い成果を得る。QWebエージェントはWorld of Bitsベンチマークにおいてデモなしに100%の成功率を獲得した。

  2. 先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した) フライト予約環境では、各エピソードに 1,700 を超える語彙と約 100 の Web 要素があるため、可能な指示/タスクの数は 1,400 万を超える可能性がある。報酬が疎な強化学習ではほとんどのエピソードで信号が生成されない。これを解決する従来の方法は、人間のデモから学習し、事前にトレーニングされた単語の埋め込みを使用することである。ただ、環境ごとに別々のデモを使っていることも課題である。

  3. 技術や手法の"キモ"はどこにある?(新規点,どう解決した) 2つの学習器(trainer)curriculum-DQN and instructor meta-trainerを提案、2つのニューラルアーキテクチャQWeb, INETを提案。

  4. どうやって有効だと検証した?(実験手法) Miniwob と Miniwob++で実行し, SHI17(オリジナル), LIU18(ワークフロー),Qweb

  5. 議論はあるか?(未解決点,応用例)

  6. 次に読むべき論文?

  7. (任意)より詳しい手法の理解

論文情報・リンク

bishopfunc commented 1 year ago

image