yu-ya4 commented 2 years ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週木曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #120

zerebom commented 2 years ago

どうすれば「注文」から「お届け」までがスムーズにつながるか出前館が機械学習に取り組む理由

出前館が提供しているシェアリングデリバリーサービスでは、店舗・ドライバー・ユーザ・出前館の4つの登場人物がいる。推薦システム・予測モデルを使って、各コンポーネントを最適化した。

ユーザ→店舗の推薦
- nDCGなどの精度指標に加えてエントロピーなど多様性を表す指標を加えてチューニング
配達時間の予測
- 配送時間を、max(料理の準備時間, ドライバー店舗到着時間) + 店舗→配送先移動時間と分割して、前者2つをMLを使って最適化
- 状況に応じて大きく結果が変わるため、ストリーミング処理を使ってリアルタイムに予測
ドライバー向け注文数予測
- いつ・どこで・どの程度の数の注文があるか予測する
- 全データで学習&地域ごとの特徴量追加でデータ量を担保しつつ、細かい範囲で予測
ドライバー・注文組み合わせ
- 注文とドライバーの組み合わせをうまく決めて、効率の良い配達を実現したい
- 問題が難しい(ドライバーに選択権がある、ドライバーの距離・料理準備時間の両方を考慮する必要がある、リアルタイム性が求められる)
- 全国の注文と配達のシュミレーターを使って割り当ての良し悪しを評価

OpenAI’s API Now Available with No Waitlist

OpenAI APIの安全対策の進展により、GPT-3が利用可能に。ログインしてすぐ試せるみたいです。 https://beta.openai.com/playground/p/default-qa

機械学習帳

理論と実装がセットになった機械学習の教材。

Baysian Personalized RankingとMatrix Factorizationの比較(実装編)

Wantedly 21新卒 Advent Calendar 2021の2日目の記事、書きました!

hakubishin3 commented 2 years ago

検索エンジンのABテストで発生するユーザー内相関を突破する

https://www.m3tech.blog/entry/search-ab

Webでオンラインテストやっていると陥りがちな罠の概要とその対処方法の紹介がされている。取り敢えず困ったらA/Aテストをやるのが良さそう、コスト小さいし。 Interleavingを採用するというアプローチはなるほどって思った。

nogawanogawa commented 2 years ago

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

論文URL

https://cora.ucc.ie/bitstream/handle/10468/10209/Carraro_Bridge_CORA.pdf?sequence=1&isAllowed=y

著者

Carraro, Diego; Bridge, Derek G.

会議

SAC '20

背景

推薦システムのオフライン評価には、MNAR（Missing Not At Random）なデータを使用する事による一定のバイアスが発生しており、これによって推薦の正しい性能の測定が阻害されている。

一般的なアプローチとして、MNARテストデータで使用するために、新たな超不偏的な性能推定器を設計することであるが、バイアスの影響全てに対応できるわけではない可能性が高く、また、データが特定の前提条件を満たさなければならない場合があり、必ずしも有効とは言えない。

これとは別の方法としてMNARなデータからサンプリング戦略によってMAR（Missing At Random）なテストデータセットを作成することが考えられる。

目的

population biasに対応するために、MNAR (missing not at random) からMAR (missing at random)なテストデータセットを作成する

アプローチ

介入データを生成するためのSKEWサンプリング戦略に代わる新たな手法の使用
- MNARデータにおけるユーザとアイテムの分布と，それらに対応するターゲットMAR分布との間の乖離を考慮して重みを計算する，重み付きサンプリング戦略

読んだときのissue

https://github.com/nogawanogawa/paper_memo/issues/19

yu-ya4 commented 2 years ago

Netflix における｢視聴時間｣ランキングが公開

『Netflixが情報公開し始めた｢ランキング｣のエクセルデータをダウンロード・分析してみた…今オープンにする理由とは』

https://www.businessinsider.jp/post-246277

https://top10.netflix.com/

このランキングは、ネットフリックス加入者全員が見た｢視聴時間｣を集計し、その累計が長い順に並べられている。

要は、このリストは｢ネットフリックスが作った作品の人気ランキング｣ではなく、本当に｢ネットフリックスで視聴されている作品全体の人気ランキング｣である、ということだ。

ネットフリックス広報は、｢透明性を高め、クリエイターに自らアピールする情報を提供するため｣と話す。

無料で公開しているのすごい。バイアスすごくなりそう。

TSV/Excel形式で落とせるっぽいのでちょっと遊んでみたい。プロダクトによっては活用できそうですね。

自然言語処理と情報検索とその関係性について（NLP AND IR）

『自然言語処理と情報検索について（NLP AND IR）』

https://speakerdeck.com/kamata_shingo/zi-ran-yan-yu-chu-li-toqing-bao-jian-suo-nituite-nlp-and-ir

NLP の人が IR をさっくり学ぶのにも、IRの人が NLP をさっくりそのまま学ぶのにも良さそう。

各社イベントの時期なんですね

Mercari ML&Search Talk Vol.1 \~Personalization~
- 12/15(Wed.) オンライン
- https://mercari.connpass.com/event/231679/
- 第1回は、PersonalizationとSearchをメインテーマとして紹介させていただきます。メルカリ上での売り買いを促進するため、様々なアプローチの開発・検証を進めています。その一端をご紹介できればと思っています。
ABEMA Developer Conference 2021
- 12/17(Fri.) @YOUTUBE
- https://developer.abema.io/2021/
- これ聞きたい
  - 『ユーザーの動機推定と行動分析による検索精度改善戦略』
    - https://developer.abema.io/2021/sessions/RpgonAmlPE/
  - 検索はユーザーが目的の番組や作品を探す上で欠かせない機能であり、ABEMAではWAUの20%以上のユーザーが利用しています。

wantedly / machine-learning-round-table

[2021/12/02]推薦・機械学習勉強会 #122

Why

What

どうすれば「注文」から「お届け」までがスムーズにつながるか出前館が機械学習に取り組む理由

OpenAI’s API Now Available with No Waitlist

機械学習帳

Baysian Personalized RankingとMatrix Factorizationの比較(実装編)

検索エンジンのABテストで発生するユーザー内相関を突破する

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

論文URL

著者

会議

背景

目的

アプローチ

読んだときのissue

Netflix における｢視聴時間｣ランキングが公開

自然言語処理と情報検索とその関係性について（NLP AND IR）

各社イベントの時期なんですね

wantedly / machine-learning-round-table

[2021/12/02]推薦・機械学習勉強会 #122

Why

What

どうすれば「注文」から「お届け」までがスムーズにつながるか 出前館が機械学習に取り組む理由

OpenAI’s API Now Available with No Waitlist

機械学習帳

Baysian Personalized RankingとMatrix Factorizationの比較(実装編)

検索エンジンのABテストで発生するユーザー内相関を突破する

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

論文URL

著者

会議

背景

目的

アプローチ

読んだときのissue

Netflix における｢視聴時間｣ランキングが公開

自然言語処理と情報検索とその関係性について（NLP AND IR）

各社イベントの時期なんですね

どうすれば「注文」から「お届け」までがスムーズにつながるか出前館が機械学習に取り組む理由