Open nogawanogawa opened 8 months ago
Spotifyがオーディオブック推薦にGNNベースのモデルを使って、再生開始率などの指標を改善した
2T-HGNN : Heterogeneous Graph Neural Network (HGNN) と Two tower (2T) を組み合わせたモデル。ざっくり言うとHGNNでアイテム(オーディオブックとPodcast)のembeddingを作っておいて、そのembeddingとユーザやアイテムのメタデータの情報からtwo-towerでユーザに対する推薦を作る、ということをやっている。
ユーザの行動ログから、オーディオブックとPodcastという2種類のノードタイプを持つHeterogeneousなグラフを作成する。作成されたグラフにLLMで作成したアイテムのtitleとdescriptionのembeddingをノード特徴量として入れた上で、ノード間のリンクを復元するようにノードのembeddingを学習する。学習の結果のアウトプットとして、オーディオブックとPodcastのembeddingが得られる。
HGNNで作成されたオーディオブックとPodcastのembeddingにユーザやアイテムのメタデータを加えたうえで、ユーザとオーディオブックのtwo-towerで学習・推論を行う。
本番環境でのA/Bテストの結果、以下のようなビジネス指標の改善が確認された
推薦におけるcold start問題
GNNの事前学習でcold start ユーザー/アイテムのembedding品質を上げるような学習を行い、それを推薦タスクの学習のベースとして利用した
以下のような3つのコンポーネントを使って事前学習を行っている
言語処理学会 第30回年次大会 原田慎太朗さん(株式会社東芝 研究開発センター)
最適輸送を取り入れることで文脈構造を考慮した文ベクトル表現の獲得を行う手法の提案と評価を行っている論文 定量評価では、SimCSEやDiffCSEと比べて同等かそれ以上の性能を確認
https://arxiv.org/abs/2402.11139
Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Qianqi Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh
KDD 2024 (予定)
LinkedInには世界中の社会人・学生・企業・学校などがつながるネットワークを持っている。 これらのグラフは最大1000億のノードと数千億のエッジにもなります。
インタラクションには、求人応募、投稿に対するエンゲージメントなどが含まれます。
こうした巨大なグラフデータを用いて開発するには課題がある。
大規模なグラフニューラルネットワークの実アプリケーション活用
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/236
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!