nogawanogawa / paper_memo

4 stars 0 forks source link

RealGraph: User Interaction Prediction at Twitter #81

Closed nogawanogawa closed 1 year ago

nogawanogawa commented 1 year ago

論文URL

https://www.ueo-workshop.com/wp-content/uploads/2014/04/sig-alternate.pdf

著者

Krishna Kamath, Aneesh Sharma, Dong Wang, Zhijun Yin

会議

UEO ’14

背景

SNSにおけるパーソナライズでは、与えられたユーザーの既存の結びつきに対する関係強度を推定することが重要になる。 Twitterのフォロー関係の強さを計算するにはいくつか問題がある。

1つには、likeやretweetなどの複数の行動があるなかで繋がりの強さをどう扱えばよいかわからない。 もう一つは、2億5千万人以上のアクティブユーザーがおり、数十億のフォローエッジが存在し、毎日数十億のインタラクションが行われている点で、計算規模が非常に大きくなる。 最後に、計算できた繋がりの強さをどう解釈したらよいかわからないという点である。

目的

アプローチ

ひとことメモ

twitterのコードが公開されたので読んだ。 グラフの結びつきの強さの推定手法に関する論文。(ロジスティック回帰でやってる)

nogawanogawa commented 1 year ago

背景

SNSにおけるパーソナライズでは、与えられたユーザーの既存の結びつきに対する関係強度を推定することが重要になる。 Twitterのフォロー関係の強さを計算するにはいくつか問題がある。

1つには、likeやretweetなどの複数の行動があるなかで繋がりの強さをどう扱えばよいかわからない。 もう一つは、2億5千万人以上のアクティブユーザーがおり、数十億のフォローエッジが存在し、毎日数十億のインタラクションが行われている点で、計算規模が非常に大きくなる。 最後に、計算できた繋がりの強さをどう解釈したらよいかわからないという点である。

nogawanogawa commented 1 year ago

目的

アプローチ

nogawanogawa commented 1 year ago

RealGraph

パイプラインは下記の様になっている。

image
  1. Graph generation
  2. Model learning
  3. Applications

Graph generation

グラフ構造は、

  1. フォロー関係がある場合
  2. (アクセス権を許可しているとき)アドレス帳に含まれている場合
  3. 過去にやり取りした場合

の3種類の関係を用いて構築する。 グラフ構造が巨大になりすぎないように、過去のやり取りの量に基づいて値を減衰させ最新の交流が古すぎる場合にはエッジを削除している。

このとき、ノードはユーザー、エッジは繋がりを表すようなグラフができ、ノード、エッジそれぞれに対して特徴量が与えられる。

エッジの特徴量

エッジの種類として、

の三種類を区別している。 アドレス帳に関してもこれに解釈し直して使用している。

エッジにはいくつかの量が紐付けられていて、

などの数が保存されいてる。

をそれぞれ計算している。

ノードの特徴量

ユーザーに関する特徴量はエッジの特徴について、送信・受信について集計した値が利用される。

それとは別に個別のユーザーごとの値

も使用される

Model learning

ある期間の開始前の特徴量から、その期間のインタラクションを予測するタスクを解く。 モデルはロジスティック回帰による二値分類(-1, 1)採用している。

Applications

RealGraphで算出されたエッジの重みは、Twitter内でのSocail GraphにおけるPagerankとくみあわせて使用される。

などで使用される。

nogawanogawa commented 1 year ago

評価

分類の精度

image

アプリケーションとしての効果

実際にユーザーを集めて、RealGraphを使用してツイートについて定性評価をお願いした。 その中で82%がおすすめツイートがすべてが良い・一部は良いと評価されたので、妥当な結果と考えている。