nogawanogawa / paper_memo

4 stars 0 forks source link

Learning To Rank Diversely #75

Closed nogawanogawa closed 1 year ago

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2210.07774

著者

Malay Haldar, Mustafa Abdool, Liwei He, Dillon Davis, Huiji Gao, Sanjeev Katariya

会議

背景

Airbnbのランキングシステムでは、予約確率に基づいてランキングを生成している。 この予約確率は、ユーザーの多数派に強く影響され、少数のログの影響は小さくなりがちになり、結果として多数派の意見が強く反映された多様性の少ないランキングになってしまう。

目的

少数派のユーザーの嗜好を考慮し、検索結果全体の有用性の向上

アプローチ

データセットの一番上の順位のアイテムがbookingされているデータはすべて破棄し、一番上が予約されなかったデータでランク学習する

image

一番上のデータとの類似度でペナルティをかけてスコアリング

image

ひとことメモ

airbnb blog: https://medium.com/airbnb-engineering/learning-to-rank-diversely-add6b1929621

nogawanogawa commented 1 year ago

背景

Airbnbのランキングシステムでは、予約確率に基づいてランキングを生成している。 この予約確率は、ユーザーの多数派に強く影響され、少数のログの影響は小さくなりがちになり、結果として多数派の意見が強く反映された多様性の少ないランキングになってしまう。

例として、価格を高くすると、ランキングスコアが単調に減少している。

image

一方Airbnbでは、20%の少数派ユーザーが50%の売上を上げている。(パレートの法則)

image
nogawanogawa commented 1 year ago

目的

少数派のユーザーの嗜好を考慮し、検索結果全体の有用性の向上

アプローチ

nogawanogawa commented 1 year ago

Why does NDCG correlate with total bookings?

予約確率でsortしたい。

nogawanogawa commented 1 year ago

学習の考え方

image

基準より上の順位のアイテムがbookingされているデータはすべて破棄し、一番上が予約されなかったデータでランク学習する

image

学習として、先行して位置したアイテムとの類似度でペナルティを設定する。

image image image

こうすることで、先行して予約されなかったアイテムに似たアイテムはスコアが下がるようになる

計算効率化のためにNNを使っており、中間出力の結果をキャッシュして高いレイヤーのNNを学習するときに再利用することで高速化している

image
nogawanogawa commented 1 year ago

結果

ndcg, booking, engagement, 売上等が上昇。

トップ2くらいがさらに使用されるようになり、その下は減少してる(これがなんでかはFuture workで調べようとしてるっぽい?)

image