hajisho / world_model2022_group22

MIT License
0 stars 0 forks source link

Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration #2

Open bishopfunc opened 1 year ago

bishopfunc commented 1 year ago

Summary

  1. どんなもの?(Abstract,Conclusion) 一般的な対処法は、専門家の実演を模倣するようにエージェントを事前訓練して「ウォームスタート」(?)させることだが、これは過学習につながる。本手法では「ワークフロー」を導入し、適切な探索方向を排除し、エージェントが報酬を発見する能力を加速します。World of Bitsベンチマークを含む一連のWebタスクで評価しSOTAを達成した。

  2. 先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した) Mini WoBはタスクごと200デモ, 本手法は3-10デモでより高い成功率を出した。 ピクセルは入力としない?

  3. 技術や手法の"キモ"はどこにある?(新規点,どう解決した)

    • neural policy
    • 方策は on-policy と off-policy両方を使う
    • A2C, replay buffer を利用する
    • DOMnetを提案
    • DOmツリーの階層と空間構造を捉えるニューラルネットワーク構造
    • DOM要素と入力目標を埋め込み, その埋め込みに対しattentionを適応し、actionとvalueの分布を生成する
  4. どうやって有効だと検証した?(実験手法) MiniWoB, MiniWoB++, Alaska ※Alaska: FormWoB ベンチマークに触発された Alaska Airlines のモバイル フライト予約インターフェース ほとんどタスクで高い成功率

  5. 議論はあるか?(未解決点,応用例) web basedの2つの方法

  6. 単純なプログラムは、ユーザーによって指定されるかまたはデモンストレーションから推論されるかもしれない

  7. ソフトポリシーはゼロから学習されるか、デモンストレーションから「ウォームスタート」されるかもしれない

  8. 次に読むべき論文?

  9. (任意)より詳しい手法の理解

論文情報・リンク

Liu, Evan Zheran, Kelvin Guu, Panupong Pasupat, Tianlin Shi and Percy Liang. “Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration.” ArXiv abs/1802.08802 (2018): n. pag.

bishopfunc commented 1 year ago

image image image

BC: Behaivier Cloing

bishopfunc commented 1 year ago

image

bishopfunc commented 1 year ago

image

bishopfunc commented 1 year ago

実験コード https://github.com/stanfordnlp/wge https://worksheets.codalab.org/worksheets/0x0f25031bd42f4aabbc17625fe1484066/