Open hakubishin3 opened 12 months ago
$$ \pi(a|x) > 0 → \pi_{0}(a|x) > 0, \forall a \in A, x \in X $$
$$ p(e|x, \pi) > 0 → p(e|x, \pi_{0}) > 0, \forall e \in E, x \in X $$
効果測定方法として、A/Bテストができればそれが一番無難ではあるが、必ずしもA/Bテストができるわけではない。そうした状況の別の手段について紹介した記事。
DID(差分の差分法)やCausal Impact, 傾向スコアを用いた手法などが紹介されている
こんな感じの優先度付けで手法が検討されている。
(https://note.com/mercari_data/n/n2564f839cfd7 より引用)
ABテスト(この場合はABCテストとでもいうのか?)において、すべての群で条件を揃えたときに有意差がでないはずなのに有意差がでてしまった事例の紹介。
原因の仮説まで考えた上で、それをシミュレーションにより検証している。
そこでここまでの結果をもってA/Bテストシステムに大きな問題はないだろうという結論でステークホルダーと合意を形成しました。
「状況から考えて多分こうだろう」で終わらせず、きちんとシミュレーションなどで確度を上げられるかがポイントなんだと思った。 ただただすごい。。。
ChatGPTの情報抽出タスクの性能を検証した論文について紹介されている。検証結果から、SOTAと比べて何ができないのか、どういう形で使うと良いかの示唆が得られている。
チャット形式のUXどうなの?という話に加えて、ワークフロー単位での置き換えを意識したサービス開発の視点に共感した。
Spotifyのオンラインテストに関する記事。テーマはシーケンシャルテストのフレームワーク
テストフレームワークの基本的な考え方は、偽陽性率を制御するというもの。
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週水曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: #203