hajisho / world_model2022_group22

MIT License
0 stars 0 forks source link

World of Bits: An Open-Domain Platform for Web-Based Agents #1

Open bishopfunc opened 1 year ago

bishopfunc commented 1 year ago

Summary

  1. どんなもの?(Abstract,Conclusion) エージェントがキーボードやマウス操作によってインターネット上のタスクを実行する強化学習環境, World of Bits (WoB)を開発した。WoBの主な課題は2つある。(i) ウェブベースのタスクを要約、整理すること、(ii) 報酬構造があり、ウェブの移り変わりにもかかわらず再現可能であること。HTTPトラフィックをキャッシュすることでオフラインでタスクを近似できる。ウェブベースのタスクを作成するための3つの手法 MiniWoB, FormWoB, QAWoBを説明した。標準的な教師付き学習や強化学習の手法で十分な結果を得ることはできたが、人間とのギャップはまだ大きい。

  2. 先行研究と比べてどこがすごいの?(先行研究,どんな問題を解決した) アルゴリズムだけじゃなくてシミュレーション環境も重要。シミュレーションには制限がある、ロボット工学だと物理的なハードウェアがあり、データ収集や反復が制限される。pixel + keyboard/mouseの初めてのアプローチ。Web系、言語操作系 に関連ある。

    • first to tackle the problem of interacting with websites using both vision and raw mouse and keyboard actions on open-domain tasks at scale
    • a bridge between this semantic-oriented work and the more control-oriented tasks found in most reinforcement learning environments.
  3. 技術や手法の"キモ"はどこにある?(新規点,どう解決した)

    • Open-domain 既存のインターネットの環境を利用できる
    • Open-source 変化に対応しやすい
    • Easy to collect data 人間と同じインテーフェースを使うからクラウドソーシングでデータを大量に収集できる
  4. どうやって有効だと検証した?(実験手法) Random, SL, SL+RLを比較した 十分な結果を得ることはできたが、人間とのギャップはまだ大きい。

  5. 議論はあるか?(未解決点,応用例)

  6. 次に読むべき論文?

  7. (任意)より詳しい手法の理解

論文情報・リンク

bishopfunc commented 1 year ago

Docker の中に Browser Gym を通して操作 step t

State: pixel, DOM, r

Action

Architecture

Behavior cloning

Reinforcement learning.

image image
bishopfunc commented 1 year ago

Minimalistic Web Tasks: MiniWoB

image

Atariみたいなやつ 100個のタスク

an HTML page that is 210 pixels high, 160 pixels wide the top 50 pixels (in yellow background) contain the natural language task description (randomly generated) and the 160 × 160 area below is for interactions

−1.0 (failure) to 1.0 (success)

bishopfunc commented 1 year ago

Live Web Tasks: FormWoB あるweb siteを使う

オフライン近似のため, プロキシを使って人間によるデモの全てのHTTP request と responseを記録する key, value のペアで報酬関数を定義する デモない request (=cach miss)をしたとき、エピソードは終了する 実環境の場合は小さい報酬 を返す

FormWoB benchmark United, Alaska, AA, and JetBlue の4つの飛行機予約サイトに適応した フォーム記入,送信ボタン

bishopfunc commented 1 year ago

Crowdsourcing Web Tasks at Scale: QAWoB

報酬関数を設計せずに、自然言語でタスクを生成する Stage 1 query 質問文を作成 キーワードを複数パターン

Stage 2 queryに対してデモをする 一旦DOMをクリックしたら報酬を返す

制約

QAWoB benchmark. 521 query テンプレート, 2 スロット, 10-100集めた 13,550 total queries

GUI 操作 100 テンプレート 7種類のGUI操作

image
bishopfunc commented 1 year ago

関連研究 Web系