[2021-01-24] 論文読み会

どんなもの？（3行ぐらいで）

機械学習を取り入れる中で失敗と成功の両方を何度も経験してきたBooking.comが、150の成功モデルから学んだことについての論文
Booking.com特有の下記問題に対して機械学習を用いてアプローチしてきた
- High Stakes
- Infinitesimal Queries
- Complex Items
- Constrained Supply
- Continuous Cold Start
- Content Overload
そして成功から学んだ6つの教訓を紹介している

先行研究と比べてどこがすごい？

機械学習が商業的な利用においてどのような影響を及ぼすかを論じたものはほとんどなく、そこについて論じている点

技術や手法のキモはどこ？

機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす
機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない
解決しようとする問題をはっきりさせることが大切
予測は遅延をもたらす
モデルの質に関して迅速なフィードバックを得ること
ランダム化比較試験を用いてモデルを使った時のビジネスインパクトを測る

1. 機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす

Booking.comが使う機械学習モデルは、大きく以下の6つのカテゴリ

Traveller Preference Models: 旅行者の好みを幅広く予測するモデル
- 行き先や日程などについて、どれくらい柔軟に考えているか（こだわっているか）推定するモデル
Traveller Context Models: 旅行の文脈を予測するモデル（a）
- カップルなのか、家族なのか、車で近くに行きたいのか飛行機で遠くに行きたいかなどのコンテクストを推定するモデル
Item Space Navigation Models: 履歴などからユーザーの見た内容をトラッキングするモデル
- スクロール、クリック、ソート、フィルタなどの暗黙フィードバックからユーザーの好みを推定するモデル
User Interface Optimization Models: UIを最適化するモデル
- リスト内の項目数、背景色や画像などをコンテキストとユーザー情報を考慮して最適化するモデル
Content Curation: レビューを始めとするコンテンツを集めてどれを表示するか決めるモデル（b）
- レビューをキュレーションして、簡易で代表的な要約を構築するモデル
Content Augmentation: 価格やオプションのトレンドをコンピューティングするモデル
- Great Value: 同程度のオプションの宿と比べて価格が良いものを通知するモデル
- Price Trends: 時期や目的地によって価格は変動するので、ユーザーが旅行をしたい日の価格を予測し、傾向があればそれをユーザーに通知するためのモデル。これは宿泊施設ではなく、目的地が通知される（c）

上記のカテゴリで、ビジネス的な価値を生んでいる。 Content Curationだけはベンチマークを下回る結果になっている。（ベンチマークの詳細は分からなかったので、ちょっとモヤモヤ）

2. 機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない

ランダム化比較試験を用いることで、機械学習モデルによって提供されたものの価値を分析しているが、モデルのパフォーマンスが上がることは、必ずしもビジネス価値を上げるとはいえないことが分かった。これは、ビジネスの価値が既に飽和していたり、そもそも提供されるものの利用者が少なかったり、Uncanny Valley effect現象（下図）が生じたりと、さまざまな理由がある。

（Booking.comのユーザーが「私はザルツブルクとロンドンについて入力しただけなのに、なぜBooking.comは私がウィーンに行こうとしていることまで知っているのだ？」とユーザーが不思議に思っている様子）

3. 解決しようとする問題をはっきりさせることが大切

機械学習モデルを作る際には、問題を明確にすることが非常に重要になります。パフォーマンスの向上は、モデルの改良ではなく、解くタスクそのものを変えることによってもたらされることもある。

4. 予測は遅延をもたらす

人工的に遅延を起こす実験をしたところ、レイテンシが30％増加すると、コンバージョン率が0.5％下がることが示された。よりパラメーターが少ないモデルや自社製の線形予測エンジンなどを使うことでレイテンシの長さを最小化することが重要。（遅延と予測精度のバランスが大事ね）下記のような工夫で遅延をなくしている

分散処理
高速な、独自実装の線形モデル
パラメータの少ないモデルの利用
結果のキャッシュと、事前学習
バルク処理
特徴量の変換の簡略化

5. モデルの質に関して迅速なフィードバックを得ること

機械学習モデルがリクエストに正しく反応しているのかは、出力のクオリティをモニタリングして検証する必要がある。しかし、多くの場合は真のラベルを観察できなかったり、予測を行ってから数日後、あるいは数週間後に真のラベルが観測できるパターンもあるという部分が課題としてあった。この点について、Booking.comは二項分類でモデルが出力した応答の分布を観察し、品質をチェックしている。

6. RCTを用いてモデルを使った時のビジネスインパクトを測る

成功した機械学習モデルの多くは、高度な実験デザインのもとで行われている。単純にcontrolとtreatmentに分けれる場合もあれば、そうでない場合もある。

work-in-progress-fm / reading-group