[2023/09/27]Machine Learning 輪講

hakubishin3 commented 9 months ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/212

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

Hayashi-Yudai commented 9 months ago

A Study of Symbiosis Bias in A/B Tests of Recommendation Algorithms (Preliminary Draft)

推薦システムのABテストで何も考えずにユーザをランダムに振り分けると結果にバイアスが乗ってしまう、ということを書いてある論文。

一般に２つの推薦モデルをオンラインテストする時、モデルの学習に使われるデータはcontrolモデルの推薦を受けたユーザとtreatmentモデルの推薦を受けたユーザの両方のデータが含まれる。推薦システムはユーザの行動に影響を与えるものなのでこれはSUTVAの仮定が成り立たなくなる。

この問題を解消する手段として、論文では以下の２つの方法を提案している。

cluster randomized：ユーザの嗜好に応じてクラスタリングし、そのクラスタ単位でランダム化する
data-diverted solution：treatment群のモデルの学習にはtreatment群にいるユーザの行動データしか使わない

シミュレーション結果

普通にランダム化したとき(Naive)よりもバイアスが軽減できている。

zerebom commented 9 months ago

Reward innovation for long-term member satisfaction

RecSys2023のNetflixの論文。Netflixの推薦システムは短期的なエンゲージメントではなく、長期的な会員満足度を最大化している。より良く会員満足度を表す代理的な指標を開発する方法やTipsを紹介している。

定式化
- 入力・推薦アイテム・報酬のTriplet(x,a,r)から算出される長期的なリーワードを代理する指標の期待値を最大化するタスクを解く
実装・評価
- 会員満足度と相関するある程度長期的な指標をオフラインで再現して評価。
開発上の工夫
- Reward GenerationとDelayed-reward modelを分けてる
- Reward Generation
  - とは?: 良い代理指標を設計するフェーズ
  - 多様なデータソースからの情報を簡単にアクセスできる開発環境を用意している
    - DSが取得方法を知る必要はない
  - 報酬関数は他の報酬関数の構成要素となる場合があり、これらの計算を集約することで効率化している
  - すべての報酬関数を一箇所で管理することで、同じ報酬を使用する異なるモデル間での一貫性を確保
- Delayed-reward model
  - とは?: 長期目標を代理的に推論するモデル。観測までに時間がかかる事象を
    - 1日目しか立ってないログでも将来6ヶ月でどれくらい視聴するか、みたいなのを評価できる
    - 6ヶ月分のレコードを利用できる
気をつける点
- 報酬のスケールに対する学習アルゴリズムの敏感性
  - 報酬のスケールが変わる = モデルの学習率のスケールを変えることと同じことが起きるケースも
- 報酬と高度に相関する特徴量が有用
  - ex) あるペアに対する6ヶ月の視聴時間を予測するなら. そのアイテムに対する平均視聴時間など

wantedly / machine-learning-round-table