[2021/09/16]Machine Learning 輪講

hakubishin3 commented 2 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #114

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

hakubishin3 commented 2 years ago

Values of User Exploration in Recommender Systems

https://dl.acm.org/doi/10.1145/3460231.3474236

RLベースの推薦システムは不確実性の高い領域を探索してユーザが見たことないものを出すようにしたり, 長期的な価値を最適化できるなどの利点があるが, 探索によって短期的にユーザ体験が悪化してしまうことが懸念としてある. しかし推薦における探索には「ユーザが新たな興味を発見する」という価値が産まれる可能性があり, これにフォーカスした探索戦略がユーザ体験の向上に寄与することを検証している.

オンラインテストでは, カジュアルユーザのコアユーザへの転換を長期的なユーザー体験を測定する指標として置き, 実際に長期的にユーザ体験が向上していることを確認している.

zerebom commented 2 years ago

BPR: Bayesian Personalized Ranking from Implicit Feedback

UAI 2009 の論文. (引用数2000↑) implicit feedbackを使ったランキング学習手法

下記の学習だと真のNegativeか見てないだけかがわからない。

クリックがあったuser,itemだけで学習
クリックがなかったuser,itemはNegativeと見なして学習

興味度をクリックがあったitem>クリックがなかったitemという仮定をおいて、pair wiseで学習する。

参考資料

nogawanogawa commented 2 years ago

Decision Transformer: Reinforcement Learning via Sequence Modeling

著者

Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch

背景

TransformerはNLPの世界に始まり、今では画像の世界でも成功し始めており、注目されている。そして、強化学習の世界にTransformerを適用しようとする動きが見られる様になった。

目的

Transformerを強化学習にうまく適用する

アプローチ

return, state, actionの系列を入力として取扱う
- 最適な次のアクションを推定することを繰り返す

memo : https://github.com/nogawanogawa/paper_memo/issues/9

wantedly / machine-learning-round-table