SamuraiT commented 9 years ago

refs: http://cgi.csc.liv.ac.uk/~danushka/papers/jsai_nori_interest.pdf title: ソーシャルメディア上の行為に基づく興味予測 author 則のぞみ, ボレガラダヌシカ, 石塚満

様々なウェブサービス上の行為データを興味予測に活用できるのか。それはどのような場合か
ユーザの行為データを多項間関係データとし扱い、ユーザの興味を予測する必要がある。

一般的なアプローチは、ユーザの行為をユーザとアイテム間のような二項関係として捉えている。例えば、強調フィルムリングでは、あるユーザと似た興味を持つ他のユーザが気に入るアイテムをそのユーザに推薦する。一般的にユーザの今日はどのアイテムに行為を行ったのかをもとに判断される。しかし、一般的には行為はユーザ、リソース、キーワードと多項関係データとして捉えられる。従って、ユーザの様々な行為データを多項関係としてユーザの興味を予測する必要がある。

また、ウェブ上のユーザ、リソースは大量にあるためユーザの興味を的確に予測するためにはデータ過疎に頑健な予測手法が必要となる。　

アブスト

ソーシャルメディア上の行動を利用することでユーザの興味を予測する方法を提案。行為グラフ(ActionGraph)というユーザの行動をモデル化する新しいグラフ表現モデルを提案し、ソーシャルメディアのデータを使うことで有用性を検証した。結果的に、標準的なテンソル解析(PARAFAC), LDA-based, Graph-based variantなどのベースラインより良い結果を示した。

結論

ソーシャルメディア上でのユーザ行為データから興味予測という問題設定を行い、その意義や応用性を示した。

データのアグリゲーションに関する知見
- 分析のための実験方法を提案。複数のウェブサービスの複数の行為を含むデータを用いた実験をし知見を得た
多項関係データを活用するデータ過疎に頑健な手法を構築する
- ユーザの行為を多項関係として表現できる新しいグラフ表現を提案。
- そのグラフを用いて、予測手法を提案
- 提案手法の予測精度、データ過疎への頑健性を評価

実験より、グラフを用いたアルゴリズムの性能はどのようなグラフを構築するかに依存するユーザの行動に付与するエンティティ情報をグラフに付与することで、グラフマイニングのアルゴリズムを効果的に機能させることが示唆された。

実験, 実験結果

ソーシャルメディア上のユーザ行為の分析

結果

図2,3への補足

A-Bとは評価データの行為がAで、訓練データの行為がBである。
1で示される棒グラフは予測精度の平均値を示している
エラーバは標準偏差を示している。

図2より、Deliciousのtagを用いることは、twitterのfavoriteやfollowの行為の予測に有効であることが確認できた。favorite自身を用いてfavoriteを予測するよりも、tagを用いてfavoriteを予測する方が平均値としては高い精度を実現している。followにも同様のことが言える。

つまり、favoriteやfollowのデータが過疎であるときに他の種類の行為データとしてtagの行為データを活用することができる。

逆に、図3よりDeliciousのtag行為をtwitter行為から予測することはできない。（精度が低い）これは、複数のドメインの非対称性質だと言える。

以上より、異なるアプリケーション感であってもユーザの行為データをアグリゲートすることが有効であると示唆される。

類似した行為

また図4より、一方の行為を予測するのに他方の行為を用いても同等の結果になっている。従って、 一方のデータが過疎であるときに他方のデータを活用できることを示唆している。

行為Aを予測するのに、行為Bが活用できるならば、行為AとBに反映されている嗜好は共通部分を持つと考えられる
行為Bを予測するときにも行為Aを活用できるならば、行為A,Bじゃ互いに類似していると言える。

類似していない行為

表2からわかるように、他の種類の行為が夕刻活用できない場合も存在する。例えば、followの場合だと元の行為を用いた場合よりも総じて低い精度しか実現できていない。

手法

URL はウェブ上の様々なリソースを参照することができるので,ユーザの興味の対象を表現するのにも適している。 Twitter上の特定ユーザを起点に、フォローネットワークを2ホップ先までたどることで、ユーザの候補集合を得た。ユーザの同一性判定にはFriendFeedというサービスを使った。行動主体ユーザ集合として、3356人を集め、2010/8/1 ~ 2010/8/31までのtwitter上で行った各行為を対象データとした。また、3356人人中Deliciousも利用している151人の行動データも取得。

ロジスティック回帰の入力には表1のエンティティの他、各行為についてのその種類を特徴量として用いた。

予測設定

30日間のデータを3日ごとに区切り10個のスロットを作りスロット t ∈ [1,..., 9]のデータを訓練データとして行為が行われたかを判定する分類器を構築。構築した分類器を用いて t + 1 ∈ [2,..., 10]の評価データを分類。また、各訓練データおよび評価データについて50%の負例をランダムに作成

ある種類の行為を予測するのに、同じ行為、異なる行為を用いる場合の予測精度を評価。学習にはL2正則ロジスティック回帰を採用し、最適化にあたり Limited-memory Broyden-Fletcher- Goldfarb-Shanno (L-BFGS) [Nocedal 80]

＊注意データ量の差によって生じる精度差の影響を緩和するために,各スロットの各訓練データ/評価データの量(学習/評価に用いる入力データ数)は異なる行為種類であっても同量になるように調整した.

興味予測タスクにおいてのグラフアクションの性能評価実験

結果

表6より、予測精度については提案手法が他の手法よりも優位に高い精度を実現している。（t検定(p<0.05)）

(a) ユーザの行為を多項関係として捉え予測に活用することで,二項関係として捉える場合よりも予測の性能を向上させることができるか
(b) 同じ情報を用いていても構築するグラフによりアルゴリズムの性能が変わるかに

結果より、(a),(b)を満たす

実験条件

データセット

表4より、今回の定義ではスパースネスの値が大きいほどスパースネスが緩和されることになる. アクショングラフを用いた場合のスパースネスはテンソルを用いた場合のスパースネスの 1,000 倍となっており,アクショングラフを用いることでスパースネスが大幅に緩和されていることが確認できる.

ユーザの興味予測を、ユーザが各リソースに対して抱く興味の度合い（retweet, favoriteの行為を行いそうかの度合い）をユーザとリソースの類似度をもとに予測する。

入力は関係データのタプル。
出力はエンティティ間の類似度である。

あるユーザがどれくらいあるリソースに興味を持つかを、ユーザとリソースの間の類似度をもとにして予測する。

比較手法

5つのベースラインと比較

関係モデル: ユーザのリソースへの興味を予測するにあたり,ユーザの行為をユーザとリソースの二項関係として捉え予測に活用するのか, それ以外の情報(発信元ユーザや行為の種類)を踏まえた多項関係として捉え予測に活用するのかを比較するための項目である.
評価指標

予測精度の評価には R-Precision [Craswell 09] を,データ過疎への頑健性の評価には被覆率 [Ge 10] を用いた.

R-Precision: R を正例のデータ数とした時に上位 R 個について評価した際の precision(精度)である.
各ユーザについての正例は,retweet/favorite の行為を行ったURLである.
被覆率は, 評価データ中で類似度を計算できたユーザとURLのペアの割合を示す.
- 被覆率は推薦システムのコールドスタート問題における対処の度合いを評価するのにも有効である.
  ハイパーパラメータ設定

全データの 20% をチューニング用データとしてランダムにサンプリングし,このデータを用いて R-Precision を評価指標として提案手法と比較手法のハイパーパラメータを調整した.

β は 0.01 で固定した.正則化ラプラシアンカーネルがハイパーパラメータ β に対して安定していることは指摘されている [Ito 05]

提案手法(アクショングラフ)

無向二部グラフG=(Vob ∪ Vac ,E)

アクショングラフの表現は元の多項関係に表現されている三つ以上の共起情報を保持している.

ユーザの興味予測

cfの考えの枠組みに則り、ユーザのリソースへの興味を予測する問題を、ユーザの行為を活用した上で、ユーザとリソース間の類似度を計算する問題としてモデル化できる。

オブジェクトノードの総数が m,アクションノードの総数がkのアクショングラフG=(Vob ∪ Vac ,E)が与えられた時、m行k列の行列Bを、もとのアクショングラフに対応する2値行列とする。

ユーザとリソース間の類似度、エンティティ間の類似度を関与した行為からけいさん

エンティティ間の初期類似度行列は

$M = BB^t$

類似度を行列Mから作成するために,本論文ではグラフカーネル [Smola 03] を用いることを提案する.

正則化ラプラシアンカーネルなどのラプラシアン行列に基づくカーネルが,関連したノードを見つけるのに有効であることが指摘されている [Ito 05]

β はノードペアの類似度を計算する際に離れたノードにどの程度重みをつけるかを調整するハイパーパラメータである.

注意＊ラプラシアン行列とは： refs: http://d.hatena.ne.jp/Zellij/20120607/p1

提案手法

他の行動を用いた場合の行為予測評価

ある行為(e.g retweet)を予測するのに、他の行為（e.g favorite）を用いても同程度の精度が実現するのであれば、データが過疎な場合に複数行為を活用することでユーザの興味予測の性能向上が期待できる。

そのため、行為（e.g retweet）を予測するのに、それだけを用いた場合と他の行為データ(favorite)も用いた場合に同程度に高い精度が実現できるかを評価。

アクショングラフ(ユーザの行為を多項関係として表現できる新しいグラフ表現)

ユーザの様々な行為を多項関係として表現できるグラフ：アクショングラフを提案。アクショングラフにより、様々な行為を多項関係として表現した上で、多項関係の共起情報を欠損させることなく二項関係に変換することが可能となり、協調フィルタリングを拡張させた。

SamuraiT commented 9 years ago

1. どんなもの？

複数のウェブサービスの複数の行為を含むデータを用い、ある行為を他の行為を利用して行為予測をしても有効かを検証した。

また、行為の興味予測を行うにあたり、行為が似ている人同士は似ているという仮説のもと、人と行為をグラフによって表現し、協調フィルタリングを拡張する形で仮説を検証した。

2. 先行研究と比べてどこがすごい？

ある行為を予測する際に、異なる行為を用いた場合でも行為対象となるものが類似し、行為も類似している場合は同程度の精度がでる。つまり、予測対象の行為が疎でも他の行為を利用することでそれを補えることを示唆したこと。

推薦（行為予測=興味予測）を行う際にアクショングラフという新しいデータ構造を提案し、グラフベースの場合はデータ構造が重要だと示したこと。

3. 技術や手法のキモはどこ？

予測したい対象行為を、対象行為だけのみでの予測、異なる行為での予測を行ったところ。

ユーザのリソースへの興味を予測する問題を、ユーザの行為を活用した上で、ユーザとリソース間の類似度を計算する問題としてモデル化し、新しいグラフ構造を提案したところ。

4. どうやって有効だと検証した？

異なる行為でも、対象行為を予測できるかでは、異なる行為での予測と、対象行為を用いた予測とを比較し検証。

行為予測では、他の推薦手法と比較し、さらに、推薦手法は同様にし、グラフ構造だけ変えることでグラフ構造の優位性を検証。

5. 議論はある？

6. 次に読むべき論文は？

正則化ラプラシアンカーネルなどのラプラシアン行列に基づくカーネルが,関連したノードを見つけるのに有効であることを指摘している

[Ito 05] Ito, T., Shimbo, M., Kudo, T., and Matsumoto, Y.: Application of kernels to link analysis, in Proceedings of 11th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD ’05, pp. 586–592 (2005)

SamuraiT commented 9 years ago

各行為の特徴量と，そのデータサイズについては表 1 にまとめた．各行為の種類 tweet, retweet, favorite, follow, tag に対して，その簡略表現としてそれぞれ Tw, RT, Fav, Fol, Tag という表記を追記した．この簡略表現を以降の結果に関する図表中で用いる．original tweet は， retweet/favorite の行為における元の tweet の ID の文字列である．

ユーザは一つのリソースに対して複数のタグを用いることができるので，複数のタグが用いられた場合には個々のタグを一つの特徴量として全体として複数の特徴量を用いた．ロジスティック回帰の入力には，表 1 のエンティティの他，各行為についてその行為の種類を特徴量として用いた．また，tweet と retweet/favorite で original tweet の特徴量が共有されるよう，tweet においては自身の tweet の ID の文字列も特徴量として用いた．また，各行為について行為数に関するユーザ分布を図 1 に示した．各図で，横軸は行為数を表し，縦軸は，そのような行為数であるユーザの数を表す

SamuraiT / Literature-circle-for-Research-Paper

ソーシャルメディア上の行為に基づく興味予測 #1

アブスト

結論

実験, 実験結果

ソーシャルメディア上のユーザ行為の分析

結果

類似した行為

類似していない行為

手法

予測設定

興味予測タスクにおいてのグラフアクションの性能評価実験

結果

実験条件

比較手法

評価指標

ハイパーパラメータ設定

提案手法(アクショングラフ)

ユーザの興味予測

関連研究

提案手法

他の行動を用いた場合の行為予測評価

アクショングラフ(ユーザの行為を多項関係として表現できる新しいグラフ表現)

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？