Closed nogawanogawa closed 1 year ago
SNSにおけるパーソナライズでは、与えられたユーザーの既存の結びつきに対する関係強度を推定することが重要になる。 Twitterのフォロー関係の強さを計算するにはいくつか問題がある。
1つには、likeやretweetなどの複数の行動があるなかで繋がりの強さをどう扱えばよいかわからない。 もう一つは、2億5千万人以上のアクティブユーザーがおり、数十億のフォローエッジが存在し、毎日数十億のインタラクションが行われている点で、計算規模が非常に大きくなる。 最後に、計算できた繋がりの強さをどう解釈したらよいかわからないという点である。
パイプラインは下記の様になっている。
グラフ構造は、
の3種類の関係を用いて構築する。 グラフ構造が巨大になりすぎないように、過去のやり取りの量に基づいて値を減衰させ最新の交流が古すぎる場合にはエッジを削除している。
このとき、ノードはユーザー、エッジは繋がりを表すようなグラフができ、ノード、エッジそれぞれに対して特徴量が与えられる。
エッジの種類として、
の三種類を区別している。 アドレス帳に関してもこれに解釈し直して使用している。
エッジにはいくつかの量が紐付けられていて、
などの数が保存されいてる。
をそれぞれ計算している。
ユーザーに関する特徴量はエッジの特徴について、送信・受信について集計した値が利用される。
それとは別に個別のユーザーごとの値
も使用される
ある期間の開始前の特徴量から、その期間のインタラクションを予測するタスクを解く。 モデルはロジスティック回帰による二値分類(-1, 1)採用している。
RealGraphで算出されたエッジの重みは、Twitter内でのSocail GraphにおけるPagerankとくみあわせて使用される。
などで使用される。
実際にユーザーを集めて、RealGraphを使用してツイートについて定性評価をお願いした。 その中で82%がおすすめツイートがすべてが良い・一部は良いと評価されたので、妥当な結果と考えている。
論文URL
https://www.ueo-workshop.com/wp-content/uploads/2014/04/sig-alternate.pdf
著者
Krishna Kamath, Aneesh Sharma, Dong Wang, Zhijun Yin
会議
UEO ’14
背景
SNSにおけるパーソナライズでは、与えられたユーザーの既存の結びつきに対する関係強度を推定することが重要になる。 Twitterのフォロー関係の強さを計算するにはいくつか問題がある。
1つには、likeやretweetなどの複数の行動があるなかで繋がりの強さをどう扱えばよいかわからない。 もう一つは、2億5千万人以上のアクティブユーザーがおり、数十億のフォローエッジが存在し、毎日数十億のインタラクションが行われている点で、計算規模が非常に大きくなる。 最後に、計算できた繋がりの強さをどう解釈したらよいかわからないという点である。
目的
アプローチ
ひとことメモ
twitterのコードが公開されたので読んだ。 グラフの結びつきの強さの推定手法に関する論文。(ロジスティック回帰でやってる)