work-in-progress-fm / reading-group

Geek Reading Group
0 stars 0 forks source link

[2021-01-24] 論文読み会 #21

Open takapy0210 opened 3 years ago

takapy0210 commented 3 years ago
論文やテックブログの記事を中心に互いに興味のある技術領域について知識を共有するゆるめの会です。

個々人の知識を縦横に広げてレベルアップをするのが目的です。

Main contents

TBD

Others

* prev: #
takapy0210 commented 3 years ago

Meta

どんなもの?(3行ぐらいで)

先行研究と比べてどこがすごい?

技術や手法のキモはどこ?

  1. 機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす
  2. 機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない
  3. 解決しようとする問題をはっきりさせることが大切
  4. 予測は遅延をもたらす
  5. モデルの質に関して迅速なフィードバックを得ること
  6. ランダム化比較試験を用いてモデルを使った時のビジネスインパクトを測る

1. 機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす

Booking.comが使う機械学習モデルは、大きく以下の6つのカテゴリ

image

上記のカテゴリで、ビジネス的な価値を生んでいる。 Content Curationだけはベンチマークを下回る結果になっている。 (ベンチマークの詳細は分からなかったので、ちょっとモヤモヤ) image

2. 機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない

ランダム化比較試験を用いることで、機械学習モデルによって提供されたものの価値を分析しているが、モデルのパフォーマンスが上がることは、必ずしもビジネス価値を上げるとはいえないことが分かった。 これは、ビジネスの価値が既に飽和していたり、そもそも提供されるものの利用者が少なかったり、Uncanny Valley effect現象(下図)が生じたりと、さまざまな理由がある。

image (Booking.comのユーザーが「私はザルツブルクとロンドンについて入力しただけなのに、なぜBooking.comは私がウィーンに行こうとしていることまで知っているのだ?」とユーザーが不思議に思っている様子)

3. 解決しようとする問題をはっきりさせることが大切

機械学習モデルを作る際には、問題を明確にすることが非常に重要になります。パフォーマンスの向上は、モデルの改良ではなく、解くタスクそのものを変えることによってもたらされることもある。

4. 予測は遅延をもたらす

人工的に遅延を起こす実験をしたところ、レイテンシが30%増加すると、コンバージョン率が0.5%下がることが示された。よりパラメーターが少ないモデルや自社製の線形予測エンジンなどを使うことでレイテンシの長さを最小化することが重要。(遅延と予測精度のバランスが大事ね) 下記のような工夫で遅延をなくしている

5. モデルの質に関して迅速なフィードバックを得ること

機械学習モデルがリクエストに正しく反応しているのかは、出力のクオリティをモニタリングして検証する必要がある。しかし、多くの場合は真のラベルを観察できなかったり、予測を行ってから数日後、あるいは数週間後に真のラベルが観測できるパターンもあるという部分が課題としてあった。 この点について、Booking.comは二項分類でモデルが出力した応答の分布を観察し、品質をチェックしている。

image

6. RCTを用いてモデルを使った時のビジネスインパクトを測る

成功した機械学習モデルの多くは、高度な実験デザインのもとで行われている。 単純にcontrolとtreatmentに分けれる場合もあれば、そうでない場合もある。

image