Open bishopfunc opened 1 year ago
Docker の中に Browser Gym を通して操作 step t
State: pixel, DOM, r
Action
Architecture
Behavior cloning
Reinforcement learning.
Minimalistic Web Tasks: MiniWoB
Atariみたいなやつ 100個のタスク
an HTML page that is 210 pixels high, 160 pixels wide the top 50 pixels (in yellow background) contain the natural language task description (randomly generated) and the 160 × 160 area below is for interactions
−1.0 (failure) to 1.0 (success)
Live Web Tasks: FormWoB あるweb siteを使う
オフライン近似のため, プロキシを使って人間によるデモの全てのHTTP request と responseを記録する key, value のペアで報酬関数を定義する デモない request (=cach miss)をしたとき、エピソードは終了する 実環境の場合は小さい報酬 を返す
FormWoB benchmark United, Alaska, AA, and JetBlue の4つの飛行機予約サイトに適応した フォーム記入,送信ボタン
Crowdsourcing Web Tasks at Scale: QAWoB
報酬関数を設計せずに、自然言語でタスクを生成する Stage 1 query 質問文を作成 キーワードを複数パターン
Stage 2 queryに対してデモをする 一旦DOMをクリックしたら報酬を返す
制約
QAWoB benchmark. 521 query テンプレート, 2 スロット, 10-100集めた 13,550 total queries
GUI 操作 100 テンプレート 7種類のGUI操作
関連研究 Web系
Summary
どんなもの?(Abstract,Conclusion) エージェントがキーボードやマウス操作によってインターネット上のタスクを実行する強化学習環境, World of Bits (WoB)を開発した。WoBの主な課題は2つある。(i) ウェブベースのタスクを要約、整理すること、(ii) 報酬構造があり、ウェブの移り変わりにもかかわらず再現可能であること。HTTPトラフィックをキャッシュすることでオフラインでタスクを近似できる。ウェブベースのタスクを作成するための3つの手法 MiniWoB, FormWoB, QAWoBを説明した。標準的な教師付き学習や強化学習の手法で十分な結果を得ることはできたが、人間とのギャップはまだ大きい。
先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した) アルゴリズムだけじゃなくてシミュレーション環境も重要。シミュレーションには制限がある、ロボット工学だと物理的なハードウェアがあり、データ収集や反復が制限される。pixel + keyboard/mouseの初めてのアプローチ。Web系、言語操作系 に関連ある。
技術や手法の"キモ"はどこにある?(新規点,どう解決した)
どうやって有効だと検証した?(実験手法) Random, SL, SL+RLを比較した 十分な結果を得ることはできたが、人間とのギャップはまだ大きい。
議論はあるか?(未解決点,応用例)
次に読むべき論文?
(任意)より詳しい手法の理解
論文情報・リンク