Closed SamuraiT closed 9 years ago
複数のウェブサービスの複数の行為を含むデータを用い、ある行為を他の行為を利用して行為予測をしても有効かを検証した。
また、行為の興味予測を行うにあたり、行為が似ている人同士は似ているという仮説のもと、 人と行為をグラフによって表現し、協調フィルタリングを拡張する形で仮説を検証した。
ある行為を予測する際に、異なる行為を用いた場合でも行為対象となるものが類似し、 行為も類似している場合は同程度の精度がでる。つまり、予測対象の行為が疎でも他の行為を利用することでそれを補えることを示唆したこと。
推薦(行為予測=興味予測)を行う際にアクショングラフという新しいデータ構造を提案し、 グラフベースの場合はデータ構造が重要だと示したこと。
予測したい対象行為を、対象行為だけのみでの予測、異なる行為での予測を行ったところ。
ユーザのリソースへの興味を予測する問題を、ユーザの行為を活用した上で、ユーザとリソース間の類似度を計算する問題としてモデル化し、新しいグラフ構造を提案したところ。
異なる行為でも、対象行為を予測できるかでは、 異なる行為での予測と、対象行為を用いた予測とを比較し検証。
行為予測では、他の推薦手法と比較し、 さらに、推薦手法は同様にし、グラフ構造だけ変えることで グラフ構造の優位性を検証。
正則化ラプラシアンカーネルなどのラプラシアン行列に基づくカーネルが,関連したノードを見 つけるのに有効であることを指摘している
[Ito 05] Ito, T., Shimbo, M., Kudo, T., and Matsumoto, Y.: Application of kernels to link analysis, in Proceedings of 11th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD ’05, pp. 586–592 (2005)
各行為の特徴量と,そのデータサイズについては表 1 にまとめた.各行為の種類 tweet, retweet, favorite, follow, tag に対して,その簡略表現としてそれぞれ Tw, RT, Fav, Fol, Tag という表記を追記した.この簡略表現を 以降の結果に関する図表中で用いる.original tweet は, retweet/favorite の行為における元の tweet の ID の文字列である.
ユーザは一つのリソースに対して複数のタグ を用いることができるので,複数のタグが用いられた場 合には個々のタグを一つの特徴量として全体として複数 の特徴量を用いた.ロジスティック回帰の入力には,表 1 のエンティティの他,各行為についてその行為の種類を 特徴量として用いた.また,tweet と retweet/favorite で original tweet の特徴量が共有されるよう,tweet におい ては自身の tweet の ID の文字列も特徴量として用いた. また,各行為について行為数に関するユーザ分布を図 1 に示した.各図で,横軸は行為数を表し,縦軸は,その ような行為数であるユーザの数を表す
refs: http://cgi.csc.liv.ac.uk/~danushka/papers/jsai_nori_interest.pdf title: ソーシャルメディア上の行為に基づく興味予測 author 則 のぞみ, ボレガラ ダヌシカ, 石塚 満
一般的なアプローチは、ユーザの行為をユーザとアイテム間のような二項関係として捉えている。 例えば、強調フィルムリングでは、あるユーザと似た興味を持つ他のユーザが気に入るアイテムを そのユーザに推薦する。一般的にユーザの今日はどのアイテムに行為を行ったのかをもとに判断される。しかし、一般的には行為はユーザ、リソース、キーワードと多項関係データとして捉えられる。 従って、ユーザの様々な行為データを多項関係としてユーザの興味を予測する必要がある。
また、ウェブ上のユーザ、リソースは大量にあるためユーザの興味を的確に予測するためにはデータ過疎に頑健な予測手法が必要となる。
アブスト
ソーシャルメディア上の行動を利用することでユーザの興味を予測する方法を提案。 行為グラフ(ActionGraph)というユーザの行動をモデル化する新しいグラフ表現モデルを提案し、 ソーシャルメディアのデータを使うことで有用性を検証した。 結果的に、標準的なテンソル解析(PARAFAC), LDA-based, Graph-based variantなどのベースラインより 良い結果を示した。
結論
ソーシャルメディア上でのユーザ行為データから興味予測という問題設定を行い、その意義や応用性を示した。
実験より、グラフを用いたアルゴリズムの性能はどのようなグラフを構築するかに依存する ユーザの行動に付与するエンティティ情報をグラフに付与することで、グラフマイニングのアルゴリズムを効果的に機能させることが示唆された。
実験, 実験結果
ソーシャルメディア上のユーザ行為の分析
結果
図2,3への補足
図2より、Deliciousのtagを用いることは、twitterのfavoriteやfollowの行為の予測に有効であることが 確認できた。favorite自身を用いてfavoriteを予測するよりも、tagを用いてfavoriteを予測する方が平均値としては高い精度を実現している。followにも同様のことが言える。
つまり、favoriteやfollowのデータが過疎であるときに他の種類の行為データとしてtagの行為データを活用することができる。
逆に、図3よりDeliciousのtag行為をtwitter行為から予測することはできない。(精度が低い) これは、複数のドメインの非対称性質だと言える。
以上より、異なるアプリケーション感であってもユーザの行為データをアグリゲートすることが有効であると示唆される。
類似した行為
また図4より、一方の行為を予測するのに他方の行為を用いても同等の結果になっている。 従って、 一方のデータが過疎であるときに他方のデータを活用できることを示唆している。
類似していない行為
表2からわかるように、他の種類の行為が夕刻活用できない場合も存在する。 例えば、followの場合だと元の行為を用いた場合よりも総じて低い精度しか実現できていない。
手法
URL はウェブ上の様々 なリソースを参照することができるので,ユーザの興味 の対象を表現するのにも適している。 Twitter上の特定ユーザを起点に、フォローネットワークを2ホップ先までたどることで、ユーザの候補集合を得た。ユーザの同一性判定にはFriendFeedというサービスを使った。 行動主体ユーザ集合として、3356人を集め、2010/8/1 ~ 2010/8/31までのtwitter上で行った各行為を対象データとした。また、3356人人中Deliciousも利用している151人の行動データも取得。
ロジスティック回帰の入力には表1のエンティティの他、各行為についてのその種類を特徴量として用いた。
予測設定
30日間のデータを3日ごとに区切り10個のスロットを作り スロット
t ∈ [1,..., 9]
のデータを訓練データとして行為が行われたかを判定する分類器を構築。 構築した分類器を用いてt + 1 ∈ [2,..., 10]
の評価データを分類。 また、各訓練データおよび評価データについて50%の負例をランダムに作成ある種類の行為を予測するのに、同じ行為、異なる行為を用いる場合の予測精度を評価。 学習にはL2正則ロジスティック回帰を採用し、最適化にあたり Limited-memory Broyden-Fletcher- Goldfarb-Shanno (L-BFGS) [Nocedal 80]
*注意 データ量の差によって生じる精度差の影響 を緩和するために,各スロットの各訓練データ/評価デー タの量(学習/評価に用いる入力データ数)は異なる行為 種類であっても同量になるように調整した.
興味予測タスクにおいてのグラフアクションの性能評価実験
結果
表6より、予測精度については提案手法が他の手法よりも優位に高い精度を実現している。(t検定(p<0.05))
結果より、(a),(b)を満たす
実験条件
データセット
表4より、 今回の定義ではス パースネスの値が大きいほどスパースネスが緩和されることになる. アクショングラフを用いた場合のスパース ネスはテンソルを用いた場合のスパースネスの 1,000 倍 となっており,アクショングラフを用いることでスパー スネスが大幅に緩和されていることが確認できる.
ユーザの興味予測を、ユーザが各リソースに対して抱く興味の度合い(retweet, favoriteの行為を行いそうかの度合い)をユーザとリソースの類似度をもとに予測する。
あるユーザがどれくらいあるリソースに興味を持つかを、ユーザとリソースの間の類似度をもとにして 予測する。
比較手法
5つのベースラインと比較
評価指標
予測精度の評価には R-Precision [Craswell 09] を,デー タ過疎への頑健性の評価には被覆率 [Ge 10] を用いた.
ハイパーパラメータ設定
全データの 20% をチューニング用データとしてランダ ムにサンプリングし,このデータを用いて R-Precision を 評価指標として提案手法と比較手法のハイパーパラメー タを調整した.
β は 0.01 で固定した.正則化ラプラ シアンカーネルがハイパーパラメータ β に対して安定し ていることは指摘されている [Ito 05]
提案手法(アクショングラフ)
無向二部グラフ
G=(Vob ∪ Vac ,E)
アクショングラフの表現は元の多項関係に表現されて いる三つ以上の共起情報を保持している.
ユーザの興味予測
cfの考えの枠組みに則り、ユーザのリソースへの興味を予測する問題を、ユーザの行為を活用した上で、ユーザとリソース間の類似度を計算する問題としてモデル化できる。
オブジェクトノードの総数が m,アクションノードの 総数がkのアクショングラフ
G=(Vob ∪ Vac ,E)
が 与えられた時、m行k列の行列Bを、もとのアクショングラフに対応する2値行列とする。ユーザとリソース間の類似度、 エンティティ間の類似度を関与した行為からけいさん
エンティティ間の初期類似度行列は
$M = BB^t$
類似度を行列Mから作成するために,本論文ではグラフカーネル [Smola 03] を用いることを提案する.
正則化ラプラシアンカーネルなどのラプラシアン行列に基づくカーネルが,関連したノードを見 つけるのに有効であることが指摘されている [Ito 05]
β はノードペアの類似度を計算する際に離れ たノードにどの程度重みをつけるかを調整するハイパー パラメータである.
注意* ラプラシアン行列とは: refs: http://d.hatena.ne.jp/Zellij/20120607/p1
関連研究
提案手法
他の行動を用いた場合の行為予測評価
ある行為(e.g retweet)を予測するのに、他の行為(e.g favorite)を用いても同程度の精度が 実現するのであれば、データが過疎な場合に複数行為を活用することでユーザの興味予測の性能向上が期待できる。
そのため、行為(e.g retweet)を予測するのに、それだけを用いた場合と 他の行為データ(favorite)も用いた場合に同程度に高い精度が実現できるかを評価。
アクショングラフ(ユーザの行為を多項関係として表現できる新しいグラフ表現)
ユーザの様々な行為を多項関係として表現できるグラフ:アクショングラフを提案。 アクショングラフにより、様々な行為を多項関係として表現した上で、多項関係の共起情報を欠損させることなく二項関係に変換することが可能となり、協調フィルタリングを拡張させた。