hajisho / world_model2022_group22

MIT License
0 stars 0 forks source link

Cooperative Web Agents by Combining Semantic Technologies with Reinforcement Learning #25

Open bishopfunc opened 1 year ago

kjboost commented 1 year ago

https://dl.acm.org/doi/10.1145/3360901.3364417

ABSTRACT ウェブブラウザや検索エンジンのデータ解釈を容易にするために、RDFaやSchema.orgなどのセマンティックアノテーションで強化されたウェブページが増加している。このようなデータ表現は、ウェブフォームの記入や航空券の予約からあらゆるウェブベースのタスクの習得に至るまで、ウェブ上での複雑な意思決定のための新しいクラスのセマンティックエージェントを可能にするかもしれない。しかしながら、セマンティックモデルのみを使用することには、セマンティックエージェントにウェブタスクを解決させるための膨大な手作業や、エンドユーザー向けにタスクソリューションをパーソナライズする能力の制限など、いくつかの欠点がある。セマンティックの利用は、将来のセマンティックエージェントを導くための重要な要素であるが、豊富な背景知識をモデル化することと、高度な機械学習(ML)手法により最適なエージェント動作を学習することのバランスを見出さなければならない。この研究では、(i)ウェブタスクのためのエージェント関連のセマンティックアノテーションをモデル化し、(ii)オフラインシミュレーションと実際のオンライン使用において強化学習(RL)を用いて統計エージェントを訓練するために後者を使用し、(iii)純粋なセマンティックベースのエージェントが直接使用できるセマンティックモデルという形で、学習したエージェント動作とその出所情報をフィードバックするセマンティックエージェント・枠組みを提案している。我々は、Webタスクを自動的に解決するためのMiniWob++ベンチマークに基づいて、我々のアプローチを評価する。提案するセマンティックエージェントのフレームワークにより、(i)セマンティック背景知識を持つエージェントをウォームスタートさせ、期待累積報酬の観点からタスク依存の最適行動をより速く学習すること、(ii)自動的に導かれたNotation3 (N3) implication ruleによって行動するセマンティックベースのエージェントが学習した行動を直接再利用できることを示す。

www.DeepL.com/Translator(無料版)で翻訳しました。