Open hakubishin3 opened 2 years ago
https://dl.acm.org/doi/10.1145/3460231.3474236
RLベースの推薦システムは不確実性の高い領域を探索してユーザが見たことないものを出すようにしたり, 長期的な価値を最適化できるなどの利点があるが, 探索によって短期的にユーザ体験が悪化してしまうことが懸念としてある. しかし推薦における探索には「ユーザが新たな興味を発見する」という価値が産まれる可能性があり, これにフォーカスした探索戦略がユーザ体験の向上に寄与することを検証している.
オンラインテストでは, カジュアルユーザのコアユーザへの転換を長期的なユーザー体験を測定する指標として置き, 実際に長期的にユーザ体験が向上していることを確認している.
UAI 2009 の論文. (引用数2000↑) implicit feedbackを使ったランキング学習手法
下記の学習だと真のNegativeか見てないだけかがわからない。
興味度をクリックがあったitem>クリックがなかったitemという仮定をおいて、pair wiseで学習する。
Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
TransformerはNLPの世界に始まり、今では画像の世界でも成功し始めており、注目されている。 そして、強化学習の世界にTransformerを適用しようとする動きが見られる様になった。
Transformerを強化学習にうまく適用する
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #114
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!