どんなもの?(Abstract,Conclusion)
一般的な対処法は、専門家の実演を模倣するようにエージェントを事前訓練して「ウォームスタート」(?)させることだが、これは過学習につながる。本手法では「ワークフロー」を導入し、適切な探索方向を排除し、エージェントが報酬を発見する能力を加速します。World of Bitsベンチマークを含む一連のWebタスクで評価しSOTAを達成した。
先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した)
Mini WoBはタスクごと200デモ, 本手法は3-10デモでより高い成功率を出した。
ピクセルは入力としない?
Liu, Evan Zheran, Kelvin Guu, Panupong Pasupat, Tianlin Shi and Percy Liang. “Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration.” ArXiv abs/1802.08802 (2018): n. pag.
Summary
どんなもの?(Abstract,Conclusion) 一般的な対処法は、専門家の実演を模倣するようにエージェントを事前訓練して「ウォームスタート」(?)させることだが、これは過学習につながる。本手法では「ワークフロー」を導入し、適切な探索方向を排除し、エージェントが報酬を発見する能力を加速します。World of Bitsベンチマークを含む一連のWebタスクで評価しSOTAを達成した。
先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した) Mini WoBはタスクごと200デモ, 本手法は3-10デモでより高い成功率を出した。 ピクセルは入力としない?
技術や手法の"キモ"はどこにある?(新規点,どう解決した)
どうやって有効だと検証した?(実験手法) MiniWoB, MiniWoB++, Alaska ※Alaska: FormWoB ベンチマークに触発された Alaska Airlines のモバイル フライト予約インターフェース ほとんどタスクで高い成功率
議論はあるか?(未解決点,応用例) web basedの2つの方法
単純なプログラムは、ユーザーによって指定されるかまたはデモンストレーションから推論されるかもしれない
ソフトポリシーはゼロから学習されるか、デモンストレーションから「ウォームスタート」されるかもしれない
次に読むべき論文?
(任意)より詳しい手法の理解
論文情報・リンク
Liu, Evan Zheran, Kelvin Guu, Panupong Pasupat, Tianlin Shi and Percy Liang. “Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration.” ArXiv abs/1802.08802 (2018): n. pag.