[2022/02/08]推薦・機械学習勉強会

zerebom commented 1 year ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

Wantedly では隔週木曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #181

Hayashi-Yudai commented 1 year ago

Amazonの強化学習に関するブログ。

DQNを訓練するときには通常の深層学習の訓練時と同じオプティマイザを使うことが多いが、これらのオプティマイザは強化学習の複雑性を十分考慮できていない。なので強化学習モデルの訓練時に最適なオプティマイザを提案した、というブログになっっている。

パラメータ更新の際に、現在のイテレーションでの予測結果と１つ前のイテレーションでの予測結果の両方を使う。

このような更新によって、モデルパラメータの更新はこれまでより遅く、スムーズになる。しかしモデルの性能は従来のモデルよりも良くなる。

hakubishin3 commented 1 year ago

nogawanogawa commented 1 year ago

SmartNewsでのPush通知の頻度最適化の話。

issue
- 新規ユーザーはPush通知の多さに特に敏感で、ユーザーがアプリの価値を十分に理解していない場合には、Push通知の多さにユーザーは興味を失い、不満を感じるようになってしまう
solution 1
- 最初は通知を控えめにして、その後徐々に通知の頻度を上げていく
- この方法でも、長期的効果は得られた
- 多くのPush通知を受け取りたいような一方で一部の熱心なユーザーに対しては物足りなくなってしまう
solution 2
- ユーザーへの最初の1週間の通知のバジェットを機械学習で推定
- 下記3つについての推定を行い、評価値に応じてユーザーのバジェットを決定
- 短期的なエンゲージメント向上
- ネガティブインパクト
- 長期的なエンゲージメント向上
- 1週間以後はsolution 1を流用
- 結果的にエンゲージメントが15%向上