Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration

bishopfunc commented 1 year ago

Summary

どんなもの？（Abstract,Conclusion）一般的な対処法は、専門家の実演を模倣するようにエージェントを事前訓練して「ウォームスタート」(？)させることだが、これは過学習につながる。本手法では「ワークフロー」を導入し、適切な探索方向を排除し、エージェントが報酬を発見する能力を加速します。World of Bitsベンチマークを含む一連のWebタスクで評価しSOTAを達成した。
先行研究と比べてどこがすごいの？（先行研究,どんな問題を解決した） Mini WoBはタスクごと200デモ, 本手法は3-10デモでより高い成功率を出した。ピクセルは入力としない？
技術や手法の"キモ"はどこにある？(新規点,どう解決した)
- neural policy
- 方策は on-policy と off-policy両方を使う
- A2C, replay buffer を利用する
- DOMnetを提案
- DOmツリーの階層と空間構造を捉えるニューラルネットワーク構造
- DOM要素と入力目標を埋め込み, その埋め込みに対しattentionを適応し、actionとvalueの分布を生成する
どうやって有効だと検証した？（実験手法） MiniWoB, MiniWoB++, Alaska ※Alaska: FormWoB ベンチマークに触発された Alaska Airlines のモバイルフライト予約インターフェースほとんどタスクで高い成功率
議論はあるか？（未解決点,応用例） web basedの2つの方法
単純なプログラムは、ユーザーによって指定されるかまたはデモンストレーションから推論されるかもしれない
ソフトポリシーはゼロから学習されるか、デモンストレーションから「ウォームスタート」されるかもしれない
次に読むべき論文？
（任意）より詳しい手法の理解

論文情報・リンク

Liu, Evan Zheran, Kelvin Guu, Panupong Pasupat, Tianlin Shi and Percy Liang. “Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration.” ArXiv abs/1802.08802 (2018): n. pag.

Google Scholar 被引用数:
国際会議:

bishopfunc commented 1 year ago

BC: Behaivier Cloing

bishopfunc commented 1 year ago

実験コード https://github.com/stanfordnlp/wge https://worksheets.codalab.org/worksheets/0x0f25031bd42f4aabbc17625fe1484066/

hajisho / world_model2022_group22

Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration #2

Summary

論文情報・リンク