[2021] Personalized Embedding-based e-Commerce Recommendations at eBay

osuossu8 commented 3 years ago

論文リンク

https://arxiv.org/pdf/2102.06156.pdf

見つけた方法

offline test arxiv IR で google 検索

どんなもの？

アイテムとユーザーを同じベクトル空間に埋め込むことを学習することで、eコマース・マーケットプレイスにおいてパーソナライズされたアイテム推薦を生成するアプローチを紹介

(先行研究と比べて) どこがすごい？

eBayのトラフィックから収集したデータセットを用いたオフライン評価において
Recall@k指標をRecently-Viewed-Item (RVI)手法よりも向上させることができた
初期のA/Bテストの結果、現在運用中のパーソナライズド・レコメンデーション・モジュールと比較して、提案手法はサーフェイス・レートを約6%向上させ、リスティング・ページ・インプレッションの90%に対してレコメンデーションを生成することができた
従来の協調フィルタリングや行列分解法[1]は，eBayのユーザ-アイテム行列の規模と極端な疎性を考慮すると，不十分な結果となる

技術や手法のキモはどこ？

(i) コールドスタート問題を解決するために、コンテンツベースのアイテムエンベッディングを生成

(ii) アイテムの閲覧や検索クエリなどの様々なオンサイトイベントから、マルチモーダルなユーザーエンベッディングを生成する

(ii) アイテムの閲覧や検索クエリなどの様々なイベントからマルチモーダルなユーザエンベッディングを生成

(iii) 学習データを選択的に削除し、生成量を増加させる。モデルのロバスト性の向上

(iv) クラスタベースのKNNアルゴリズムを利用して、推奨アイテムの多様性を高める

(v) このモデルとエンドツーエンドの推奨システムをeBayの大規模な工業生産現場に展開する

議論はある?

ユーザは多様な興味を持ち，複数のショッピングミッションを遂行している可能性があるため，ユーザを表現するために単一のベクトルしか持たないことは，潜在的に限界がある．
我々は、並行して行われるショッピング・ミッションを符号化し、長期的なユーザーの興味と短期的なショッピング・ミッションを分離する機能を持つ、改良されたユーザー表現に取り組んでいる
アイテム・モデリングの観点からは、事前に訓練された言語理解モデル（例：BERT [9]）を活用して、アイテムのタイトルをより良く理解することができます
コンバージョン指標を改善するために、実行時に追加の LTR モデルを組み込むことにも取り組んでいます。このLTRモデルは、入力がユーザーの履歴であり、𝑠𝑒アイテムではないという、我々のコンテキストに特化して学習されます
現在の技術的な実装の欠点の一つは、レコメンデーションの更新頻度であり、毎日のバッチ処理の必要性によって制限されています。私たちは、ユーザーとアイテムの埋め込みを使用してパーソナライズされた推薦を生成するために、ほぼリアルタイム（NRT）のシステムに移行することに取り組んでいます。
i) FAISS [19]やScaNN [15]などのアルゴリズムに基づいて埋め込みベクトル間の距離を計算するリアルタイムKNNサービス，
ii) アイテムやユーザの埋め込みを生成するためのリアルタイムモデル予測サービス（オフラインのトレーニングからリアルタイムの予測環境にトレーニングされたモデルを転送するために，Open Neural Network Exchange（ONNX）フォーマット [2]を使用する可能性がある），
iii) eBayサイト上でのアイテムやユーザの最新のアクションをキャプチャするためのイベントストリーム処理サービスなど，いくつかのインフラストラクチャの改善が必要です。

osuossu8 commented 3 years ago

eBay マーケットプレイス

16億以上の商品と1億8300万人以上のユーザー　- ユーザ-アイテム行列の規模と極端な疎性　- 毎日何百万もの新しいアイテムが出品されているため，コールドスタート問題　- ライブリストの半分以上は単品であり，つまり，最大で1人が購入できる　- 購入された後は購入されたアイテムはサイトから削除され、ユーザーはアクセスできなくなる　 - クリックや購入などの暗黙のユーザーフィードバック信号は非常に希薄
ユーザープロファイル
- 主にマーケットプレイス上でのユーザーの活動
- ユーザーの情報 :
  - サイト登録時アンケートへの回答 (明示的) --> 潜在的関心の網羅性に弱い、参加率が低い、入力が不完全である可能性の高さ、長期的な関心が短期的な買い物の目的を捉えていない可能性
  - ユーザーのショッピング履歴を解析 (暗黙的) --> embedding 作成

osuossu8 commented 3 years ago

Model

ユーザーエンベディングとアイテムエンベディングを同時に生成する2タワーの深層学習モデルの学習に基づく
特定のモデルの特徴を追加することで、主要なオフラインモデルのパフォーマンス指標であるRecall@Kに与える影響についても言及
Covingtonら[8] の研究に倣い、我々は推薦の生成をソフトマックス確率の分類問題としてモデル化する
V : eBayで入手可能な全てのアイテム, 何十億ものアイテムが含まれる可能性があるため、フルサイズのソフトマックス演算を行うことは不可能, サイズを制限するためにはネガティブサンプリングを用いる必要がある, 項4.2で詳しく説明
モデル全体の学習は、データセットで観測されたユーザーのクリックの負の対数尤度（NLL）を最小化するように行われる (つまり BCE ?)

アイテムのエンコード

eBayのマーケットプレイスでは、アイテムとは、売り手が販売するもののリスト（またはオファー）に相当
コールドスタート問題に対処するため，我々のモデルでは，アイテムは一意の識別子（アイテムID）ではなく，アイテムのタイトル，カテゴリ（携帯電話など），構造的側面（ブランド：Apple，ネットワーク：Verizonなど）などのコンテンツベースの特徴のみを用いて表現
- 過去のアイテム行動の特徴（例：過去のClick-ThroughRate、Purchase-ThroughRate）をモデルに組み込まないことにした, コールドスタートのアイテムには適用できず、その性質上、常に変化しているため, 保存と検索に手間
タイトルとアスペクトの特徴については、生テキストをトークン化し、埋め込みサイズ𝐷𝑡𝑒𝑥𝑡のトークン埋め込みに変換し、Continuous-Bag-of-Words (CBOW) [24] のアプローチを用いてタイトルとアスペクトの特徴表現を生成
- タイトル特徴の語彙は約400Kトークンで構成、一般的な英語コーパスではなく、eBayのアイテムタイトルから収集
- Wang and Fu [30]の研究で示されているように，伝統的な英語とは大きく異なるeBayマーケットプレイスにおけるアイテムタイトルトークンの分布をよりよく捉えることができる
- トークン化は、a-Zまたは数字以外の文字を空白で置き換え、空白で分割することで構成
アスペクト特徴のための語彙は、既存のプロダクション・データベースに由来し、約100Kのアスペクト・トークンを含む
アイテムカテゴリ特徴については、カテゴリ値をインデックス化し、ルックアップテーブルを用いて、サイズ 𝐷𝑐𝑎𝑡𝑒𝑔𝑜𝑟 𝑦 の埋め込み空間にマッピング。
すべての埋め込みテーブルは、標準正規分布N (0, 1)からのランダムな初期化でゼロから学習される。
すべてのアイテム特徴を連続空間にマッピングした後、アイテム特徴埋め込みz𝑖を連結し、𝐿個の隠れ層、𝐻個の隠れ次元、非線形活性化関数としてRectified Linear Units (ReLU) [14]を持つMLPに通し、𝐷次元のアイテム埋め込みv𝑖を生成する : アイテム埋め込みv𝑖は単位長さに正規化される。

osuossu8 commented 3 years ago

ユーザーのエンコード

ユーザーのアクション --> "マルチモーダル"
- 検索クエリを作成
- アイテムをショッピングカートに追加
- アイテムをウォッチリストに追加
アイテムベースのイベントとクエリベースのイベントの代表として、アイテム閲覧と検索クエリのユーザーアクションから始めることにした
アイテムビュー/クリックは、電子商取引市場における暗黙のユーザーフィードバックの最も一般的な形態であり、大量のトレーニングデータを生成
アイテムベースのイベント𝑧𝑖については、まず対応するアイテム𝑠𝑧𝑖を、3.1節で述べたように、対応する埋め込みv𝑧𝑖にマッピングし、そのイベントタイプを表す4次元ベクトルe𝑧𝑖と連結
- ユーザの検索は、ユーザの明示的な興味や買い物のミッションを強く示す
各検索クエリを「擬似アイテム」としてモデル化し、実際のクエリテキストをアイテムタイトルの代わりにし、「支配的な」クエリカテゴリ（別のモデルを用いて予測）をアイテムカテゴリの代わりにし、アスペクトを空にする。
イベントタイプのエンベッディングは、アイテムベースのエンベッディングに連結
この検索クエリシグナルをモデルに加えることで、オフラインでの検証指標であるRecall@20が約4%向上
各ユーザイベント𝑧𝑖について、それに対応するベクトル表現𝐸(𝑧𝑖)を次のように表します。𝐸(𝑧𝑖) = concat(v𝑧𝑖 , e𝑧𝑖 )
連続的なBag-of-Events表現
- 全てのイベントのエンベッディングを平均化 --> MLP層を用いて、𝐷次元のユーザ埋め込みuを生成
- イベントの順序は結果に影響しない
リカレント表現 (GRU)
- 𝐷-dimユーザーエンベッディングuは、すべてのGRUステップからの出力ベクトルの平均を取ることによって生成
- リカレントユーザー表現は、ユーザーのアクティビティの順序にアクセスできるため、原理的にユーザーの関連性フィードバックをユーザーのインタラクション履歴にうまく関連付けることができます
このリカレントユーザー表現をモデルに用いることで、オフラインのRecall@20指標で約5%の向上が見られた

osuossu8 commented 3 years ago

ユーザ𝑈とアイテム𝑠𝑖の間の親和性関数𝛾 (v𝑖 , u)は、ユーザとアイテムのエンベッディング間のドットプロダクトによって構成される
ユーザーとアイテムのエンベッディングは単位長になるように正規化されているため
どのペアのエンベッディング間のドット積スコアも-1から1の間の値を持つように制約される
温度𝜏項を追加, 検索指標であるRecall@kを最大化するように調整, 検証セットに対して𝜏をチューニングすることで、Recall@20を約150%向上させることができた

osuossu8 commented 3 years ago

データセット

ポジティブなデータとネガティブなデータのサンプルを収集するために、eBayの出品ページでのマーチャンダイジング・レコメンデーション・モジュールに対するユーザーの暗黙のインタラクションをオフラインのログデータの形で収集
ユーザーがクリックしたレコメンデーションモジュールの推奨アイテムは、モデルターゲットのポジティブな例として選択
クリックされなかった推奨アイテムはネガティブな例として扱われました
推奨アイテムをクリックすると、新しいリストページが読み込まれるので、各リストページのインプレッションは、通常、1つのポジティブサンプルと複数のネガティブサンプルになります
--> 負例のサンプリングが重要
ユーザータワーに必要なデータは、あるページのインプレッションからさかのぼって30日間に渡って収集
典型的なトレーニングでは、8日間のデータから約1,000万回のページインプレッションが収集
リーク防ぐために、val data は training data 収拾後に収拾
エンゲージメントの高い一部のユーザーに結果が偏るのを防ぐため、トレーニングデータと検証データでは、1人のユーザーが1つのページインプレッションにしか貢献できないようにしました
トレーニングデータには1,000万人、検証データには11万人のユニークユーザーが含まれています
eBayのすべてのプラットフォーム（デスクトップウェブ、モバイルウェブ、iOSおよびAndroidのネイティブアプリ）のログからデータを収集

osuossu8 commented 3 years ago

ネガティブ・サンプリング

( 1 )

リスティングページにおいて、クリックされたアイテムをポジティブとし、印象に残ったがクリックされなかったアイテムのサブセットをネガティブとする
具体的には、各ポジティブアイテムは、クリックされなかった8つのネガティブアイテムとペアになっている
overfit, 正例、負例が区別できないため

( 2 )

インバッチ・ランダム・ネガティブ・サンプリング
アイテムプール全体(数十億のアイテム)からランダムにアイテムをサンプリングするのではなく、バッチ内ネガティブサンプリング[17]を使用して、同じバッチ内の他のトレーニング例から印象的だがクリックされていないアイテムをネガティブとして使用

osuossu8 commented 3 years ago

評価指標

情報検索のランキング問題に類似
正規化割引累積利得（NDCG），Recall@k，Precision@k，Mean Reciprocal Rank（MRR）[11]など，ランキング問題によく用いられる評価指標を検討
通常，各ページのインプレッションには1つのポジティブがあるだけなので，ポジティブな推薦が上位k件の結果にあるかどうかを測定することが重要
最終的には𝑘 = 1, 5, 10, 20, 40の場合、Recall@kを主要な評価指標として使用
産業用レコメンダーシステムでは、ユーザーはユーザーインターフェースを通じて（例えば）5つのレコメンデーションしか表示されず、他のレコメンデーションには関与しない可能性があるため、最も関連性の高いレコメンデーションをランキングの最上位に表示することが重要
比較手法
ユーザが最近閲覧したアイテムを，閲覧したアイテムの再帰性によってランク付けして推薦するRecently Viewed Items（RVI）を使用
適切なユーザ履歴があれば新しいレコメンデーションをひらめかせることができることを示している
一方，RVI法は，ユーザが既に閲覧したアイテムを表示することで，以前のショッピングミッションへの再参加を促すという，リターゲティングの目的のみを果たすものである

osuossu8 commented 3 years ago

評価セットとは別に用意した 7,000人のユーザと1,000万個の候補アイテムからなる別のテストセットを用いて行った
候補アイテムの数は，生産現場で予測時に一般的に使用される候補アイテムの数と同程度の規模

osuossu8 commented 3 years ago

モデルの安定性と予測のロバスト性

ユーザー履歴の一部が欠落した場合のモデルの性能を調べるために、ユーザー履歴データに関するモデルのアブレーション分析を行った
予測時に最新のユーザー履歴がない場合にどのような影響があるかを理解するために，いくつかの実験を行い，その結果を図3に示した
- 図3の青い破線の曲線からわかるように，直近の5分間のユーザー行動がない場合，Recall@20指標は0.9から0.62へと30％以上低下
- 直近の60分以内のユーザーアクティビティがない場合、この指標は50%も低下して0.45
この問題を解決するために、ユーザー履歴からランダムなものではなく、最新のユーザーアクティビティを削除してモデルを学習することにしました
- バッチモデルの予測出力とユーザーの印象との間に時間的なギャップがあるような、本番システムで発生するシナリオによりよく沿うようにするため
- 予測時刻に60分のユーザー行動が欠けていた場合、すべての「スキップされた」モデルは、オリジナルモデルの0.45に対し、Recall@20は0.56を達成することができました（青の破線の曲線）
- より多くの履歴をスキップして学習すると、曲線がより平坦になり、履歴の欠落が変動する状況下でよりロバストなモデルであることが示唆されました。しかし、特に0分（スキップなし）から30分の範囲では、脱落したユーザーの履歴を多く使って学習すると、モデルのパフォーマンスが低下することも分かりました
- パフォーマンスと一貫性のバランスをとるために、10分間のユーザー活動をスキップして学習したモデルの中で、図3の曲線の下の面積が最も大きいものをプロダクションモデルとして選択しました（緑の曲線）

osuossu8 commented 3 years ago

osuossu8 commented 3 years ago

予測

ユーザの埋め込みとアイテムの埋め込み候補のプールが与えられると，KNN検索アルゴリズムによって検索が行われる
FAISS[19]のKNN実装を使用
従来のKNNアプローチを利用すると、ユーザーのエンベッディングが与えられた場合、検索されたアイテムはエンベッディング空間内で非常に重なり合うことになります。この多様性の問題に対処するために、我々はK-meansクラスタリングを用いて、すべての候補アイテムを、それぞれがセントロイド𝑐𝑖を持つ𝐾個のクラスタにグループ化する。
検索時には、ユーザの埋め込み𝑢が与えられた場合に、𝑁個のリコールアイテム候補を見つけようとする。まず、最も近い𝑀クラスタを見つけ、各クラスタにおいてKNN検索を行い、𝑚𝑖アイテムを検索する
クラスタリングベースの手法は、関連性を失うことなく、より多様なアイテム推薦セットを生成します

osuossu8 commented 3 years ago

アーキテクチャ

コンテンツのテキストに基づく特徴に基づいており，これらの特徴は任意のアイテムに対してほとんど固定されているため，完全なモデルを日次で再学習する必要はない
予測処理はオフラインのバッチモードで行われます
eBayのランタイムウェブサービングアプリケーションスタックは、Java Virtual Machine (JVM)をベースにしています。レコメンデーションを提供するバックエンドアプリケーションはScalaで書かれており、高速なランタイムパフォーマンスのためにJVM上で動作しています

osuossu8 / paper-reading