wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2023/07/26]推薦・機械学習勉強会 #205

Open hakubishin3 opened 12 months ago

hakubishin3 commented 12 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: #203

morinota commented 11 months ago

MIPS推定量の論文: Off-Policy Evaluation for Large Action Spaces via Embeddings

image

$$ \pi(a|x) > 0 → \pi_{0}(a|x) > 0, \forall a \in A, x \in X $$


image

$$ p(e|x, \pi) > 0 → p(e|x, \pi_{0}) > 0, \forall e \in E, x \in X $$


オフライン環境で算出可能なmetricsを使ってオンライン性能を予測しようという論文: Predicting Online Performance of News Recommender Systems Through Richer Evaluation Metrics

オフライン評価が難しいならオンライン実験のコストを下げまくるのも手なのかな...: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

nogawanogawa commented 11 months ago

より良い意思決定の支援をするための"効果検証 虎の巻"

効果測定方法として、A/Bテストができればそれが一番無難ではあるが、必ずしもA/Bテストができるわけではない。そうした状況の別の手段について紹介した記事。

DID(差分の差分法)やCausal Impact, 傾向スコアを用いた手法などが紹介されている

こんな感じの優先度付けで手法が検討されている。

image

(https://note.com/mercari_data/n/n2564f839cfd7 より引用)

A/Bテストで想定外の結果が出たら?検定多重性の影響を定量的に分析する

ABテスト(この場合はABCテストとでもいうのか?)において、すべての群で条件を揃えたときに有意差がでないはずなのに有意差がでてしまった事例の紹介。

原因の仮説まで考えた上で、それをシミュレーションにより検証している。

image

image

そこでここまでの結果をもってA/Bテストシステムに大きな問題はないだろうという結論でステークホルダーと合意を形成しました。

「状況から考えて多分こうだろう」で終わらせず、きちんとシミュレーションなどで確度を上げられるかがポイントなんだと思った。 ただただすごい。。。

hakubishin3 commented 11 months ago

論文紹介:ChatGPT で情報抽出タスクは解けるのか?

ChatGPTの情報抽出タスクの性能を検証した論文について紹介されている。検証結果から、SOTAと比べて何ができないのか、どういう形で使うと良いかの示唆が得られている。

LLMを活用した “反直感的”な新規サービス設計

チャット形式のUXどうなの?という話に加えて、ワークフロー単位での置き換えを意識したサービス開発の視点に共感した。

Hayashi-Yudai commented 11 months ago

Choosing a Sequential Testing Framework — Comparisons and Discussions

Spotifyのオンラインテストに関する記事。テーマはシーケンシャルテストのフレームワーク

テストフレームワークの基本的な考え方は、偽陽性率を制御するというもの。