Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週木曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #143

Personalized Transfer of User Preferences for Cross-domain Recommendation

論文URL

https://arxiv.org/abs/2110.11154

著者

Yongchun Zhu, Zhenwei Tang, Yudan Liu, Fuzhen Zhuang, Ruobing Xie, Xu Zhang, Leyu Lin, Qing He

会議

WSDM 2022

背景

コールドスタート問題は、推薦システムにおける大きな問題の一つである。この問題に対応する一つの有望な解決策に、クロスドメインレコメンデーション（CDR）がある。しかし、CDRではソースドメインからターゲットドメインへユーザーの嗜好をどう転移するかが大きな問題になる。

従来の手法の多くはこの転移に共通のブリッジを使用して嗜好をモデル化している。しかし、直感的には嗜好はユーザごとに異なり、異なるユーザーの嗜好ブリッジは異なると考えられる。

目的

ユーザーごとにパーソナライズされた嗜好ブリッジを使用することで、より精度の高いクロスドメインレコメンデーションの実現。

アプローチ

Personalized Transfer of User Preferences for Cross-domain Recommendation (PTUPCDR)
- ユーザの埋め込み情報を与えたメタネットワークを学習
- ユーザーごとにパーソナライズされたブリッジ関数を通すことでユーザーごとのパーソナライズされた伝播を実現

memo

https://github.com/nogawanogawa/paper_memo/issues/49

Joint Learning of E-commerce Search and Recommendation with a Unified Graph Neural Network

https://dl.acm.org/doi/abs/10.1145/3488560.3498414

サマリー

Eコマースにおいてユーザとアイテムのインタラクションのスパースを緩和してCTR予測精度を上げるために、共通のアイテムが使われている推薦側と検索側の両方の行動ログをいい感じに併用したい。推薦と検索では明示的なクエリの有無という大きな違いがあるので、その差異を考慮して推薦と検索の両方におけるユーザとアイテムのインタラクションを統合したグラフを構築する。そして新しいグラフから情報を効率的に抽出できるGNNベースのモデルを提案。提案手法は推薦と検索の両方でベースラインよりも高いパフォーマンスを発揮。

モチベーション

CTR予測の精度を高くしたい。しかし通常のEコマースプラットフォームでは、ユーザーとアイテムのインタラクションがスパースであり（ユーザの多くは非アクティブ、アイテムは盛りだくさん）、ボトルネックになっている。既存研究では推薦 / 検索のどちらか一方に焦点を当てたアプローチが多いが、本研究では推薦と検索の両方のログを学習に使うことでスパース問題を緩和することを目指す。検索と推薦という異なる体験の差異を考慮して、いかに効率的にそれぞれの情報を共有して各経路でのCTR予測の精度を上げていくか、が課題となる。

提案手法

スクリーンショット 2022-06-02 1 22 32

検索と推薦の最大の差異は、検索には明示的なクエリが存在するが、推薦には明示的なクエリが存在しないこと。これに対して、ユーザとアイテムのインタラクションから構築したグラフのエッジにクエリ情報を付与した、推薦と検索の両方のデータを統合したグラフ（SRJGraph)を作成する。推薦側はクエリがないので「クエリがない」という特殊トークンを用いて作った情報を付与する。

スクリーンショット 2022-06-02 1 22 47

次に、作成したグラフからどのように情報を抽出してCTR予測の精度を上げるか、に着目する。

層ごとに周辺情報を集約して上の層に伝搬させていくのは一般的なGNNと同じだが、検索と推薦の違いを考慮するためにクエリ情報を入れ込んでいる。また集約時に入力サンプルに関連度の高い近傍に注目が集まるよう、入力サンプルからintentionを構築し、これをQueryとしてTransformer layerに投げている。さらに集約時にパスの前方方向を入力に加えて、より広い範囲でノードの周辺情報を集約する。

実験内容

RQを4つ置いている。そのうち3つを紹介。
- RQ1: 既存のCTR予測モデルと比べてSRJGraphはどのぐらい性能向上しているのか
- RQ2: 推薦と検索でjoint learningすることはどのぐらい性能向上に寄与するのか
- RQ3: intention-aware aggregation と upstream-aware aggregation がどのぐらい性能向上に寄与するのか
中国のECプラットフォームである Taobao.comのログを利用。推薦や検索でのユーザの行動履歴、ユーザの属性（性別、年齢）、アイテムの属性（ブランド、価格、カテゴリ）など。train / validate / test は時系列で分割している。
ベースラインは、古典的手法、ユーザの行動系列ベース、GNNベースを採用。

RQ1: 既存のCTR予測モデルと比べてSRJGraphはどのぐらい性能向上しているのか

スクリーンショット 2022-06-02 1 22 14

検索と推薦の両方でベースラインを上回る結果。GNNベースの手法が性能が高い傾向が見られる。明示的にユーザとアイテムの交互作用を考慮しているおかげか。

RQ2: 推薦と検索でjoint learningすることはどのぐらい性能向上に寄与するのか

スクリーンショット 2022-06-02 1 20 37

joint learningしないパターン（推薦、検索それぞれ独立で学習）とjoint learningしたパターンを各ベースラインで比較。JSRは既存の検索・推薦のjoint learning手法。推薦タスクと検索タスクの両方をアイテムの表現を共有させつつ同時に学習させているだけ（ちらっと読んだだけ…)っぽいので、どのベースラインでも適用可能。GNNベースでは、SRJGraph(推薦ログと検索ログの両方で構築したユーザアイテムのグラフ)を使うことでjoint learningとしている。

すべてのベースラインにおいてjoint learningしたほうが精度向上している。joint learningによってデータが増える（インタラクションが増える）ことの寄与がわかる。またjoint learningを適用したベースラインと比べても提案手法が勝っている。これは、提案手法にある追加要素（intention-aware, upstream-aware, query emb)の有効性を示している。

RQ3: intention-aware aggregation と upstream-aware aggregation がどのぐらい性能向上に寄与するのか

スクリーンショット 2022-06-02 1 20 58

ablation testで個々の要素の寄与を確認。intention , upstream なしだと性能が落ちる。対象となる入力サンプルと関連性の高い近傍により注目が集まるようにすること、パスの前方方向を明確に取り入れることで広く情報を取り入れること、の２点がうまく効いている事がわかる。クエリなしだと少しだが精度は劣化。検索と推薦の差異を考慮することが精度向上につながっていることもわかる。