wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2021/12/02]推薦・機械学習勉強会 #122

Open yu-ya4 opened 2 years ago

yu-ya4 commented 2 years ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週木曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: #120

zerebom commented 2 years ago

どうすれば「注文」から「お届け」までがスムーズにつながるか 出前館が機械学習に取り組む理由

出前館が提供しているシェアリングデリバリーサービスでは、店舗・ドライバー・ユーザ・出前館の4つの登場人物がいる。 推薦システム・予測モデルを使って、各コンポーネントを最適化した。

image

OpenAI’s API Now Available with No Waitlist

OpenAI APIの安全対策の進展により、GPT-3が利用可能に。 ログインしてすぐ試せるみたいです。 https://beta.openai.com/playground/p/default-qa

image

機械学習帳

理論と実装がセットになった機械学習の教材。

Baysian Personalized RankingとMatrix Factorizationの比較(実装編)

Wantedly 21新卒 Advent Calendar 2021の2日目の記事、書きました!

hakubishin3 commented 2 years ago

検索エンジンのABテストで発生するユーザー内相関を突破する

https://www.m3tech.blog/entry/search-ab

Webでオンラインテストやっていると陥りがちな罠の概要とその対処方法の紹介がされている。 取り敢えず困ったらA/Aテストをやるのが良さそう、コスト小さいし。 Interleavingを採用するというアプローチはなるほどって思った。

nogawanogawa commented 2 years ago

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

論文URL

https://cora.ucc.ie/bitstream/handle/10468/10209/Carraro_Bridge_CORA.pdf?sequence=1&isAllowed=y

著者

Carraro, Diego; Bridge, Derek G.

会議

SAC '20

背景

推薦システムのオフライン評価には、MNAR(Missing Not At Random)なデータを使用する事による一定のバイアスが発生しており、これによって推薦の正しい性能の測定が阻害されている。

一般的なアプローチとして、MNARテストデータで使用するために、新たな超不偏的な性能推定器を設計することであるが、バイアスの影響全てに対応できるわけではない可能性が高く、また、データが特定の前提条件を満たさなければならない場合があり、必ずしも有効とは言えない。

これとは別の方法としてMNARなデータからサンプリング戦略によってMAR(Missing At Random)なテストデータセットを作成することが考えられる。

目的

population biasに対応するために、MNAR (missing not at random) からMAR (missing at random)なテストデータセットを作成する

アプローチ

読んだときのissue

https://github.com/nogawanogawa/paper_memo/issues/19

yu-ya4 commented 2 years ago

Netflix における「視聴時間」ランキングが公開

Netflixが情報公開し始めた「ランキング」のエクセルデータをダウンロード・分析してみた…今オープンにする理由とは

https://www.businessinsider.jp/post-246277

https://top10.netflix.com/

このランキングは、ネットフリックス加入者全員が見た「視聴時間」を集計し、その累計が長い順に並べられている。

要は、このリストは「ネットフリックスが作った作品の人気ランキング」ではなく、本当に「ネットフリックスで視聴されている作品全体の人気ランキング」である、ということだ。

ネットフリックス広報は、「透明性を高め、クリエイターに自らアピールする情報を提供するため」と話す。

無料で公開しているのすごい。バイアスすごくなりそう。

TSV/Excel形式で落とせるっぽいのでちょっと遊んでみたい。プロダクトによっては活用できそうですね。

自然言語処理と情報検索とその関係性について(NLP AND IR)

自然言語処理と情報検索について(NLP AND IR)

https://speakerdeck.com/kamata_shingo/zi-ran-yan-yu-chu-li-toqing-bao-jian-suo-nituite-nlp-and-ir

NLP の人が IR をさっくり学ぶのにも、IRの人が NLP をさっくりそのまま学ぶのにも良さそう。

各社イベントの時期なんですね