Open Shumpei-Kikuta opened 6 years ago
ネットワークのタスク(リンク予測,ラベル分類)を行うために適切な分散表現を得たい.
node2vecによって,"homophily", "structual equivalence"を保存したベクトルを得ることができる.
skipgramの手法を用いている. NLPでは分布仮説に基づいてベクトル表現を得る.ネットワークにおいて,skipgramの入力とするシーケンスを得る方法は多数考えられる,Deepwalkでは単純なランダムウォークでシーケンスを得たが,structual equivelenceを考えられていない.node2vecにおいては,違った手法でシーケンスを得る.
ランダムウォークをする際の代表的な手法を二つ紹介する.
一個前にtにいて,今はvにいる,移動する先がx 以上のように遷移確率を定義.dtxはtとxの最短経路の大きさ.
p: 大きくなると元のノードに戻りにくくなる. →情報の冗長性をなくす. 小さくすると,元のノードに戻りやすくなる. →localの特徴をしっかり捉えられる.
q: 大きくなると遠くへ行きづらくなる →幅優先的になる 小さくなると遠くへ行きやすい. →深さ優先的になる.
ランダムウォークは時間・空間計算量共に抑えられる方法.
Deepwalk LINEより遥かに高いパフォーマンスを出した.
ランダムウォークベースの代表格. ランダムウォークの方法を変えるとまた別の特徴を保存したembeddingが得られそう.
Why
ネットワークのタスク(リンク予測,ラベル分類)を行うために適切な分散表現を得たい.
node2vecによって,"homophily", "structual equivalence"を保存したベクトルを得ることができる.
Related Work
skipgramの手法を用いている. NLPでは分布仮説に基づいてベクトル表現を得る.ネットワークにおいて,skipgramの入力とするシーケンスを得る方法は多数考えられる,Deepwalkでは単純なランダムウォークでシーケンスを得たが,structual equivelenceを考えられていない.node2vecにおいては,違った手法でシーケンスを得る.
How
ランダムウォークをする際の代表的な手法を二つ紹介する.
Biased random walk
一個前にtにいて,今はvにいる,移動する先がx 以上のように遷移確率を定義.dtxはtとxの最短経路の大きさ.
直感的意味
p: 大きくなると元のノードに戻りにくくなる. →情報の冗長性をなくす. 小さくすると,元のノードに戻りやすくなる. →localの特徴をしっかり捉えられる.
q: 大きくなると遠くへ行きづらくなる →幅優先的になる 小さくなると遠くへ行きやすい. →深さ優先的になる.
ランダムウォークは時間・空間計算量共に抑えられる方法.
Experiment
Deepwalk LINEより遥かに高いパフォーマンスを出した.