Closed nogawanogawa closed 2 years ago
TransformerはNLP・音声などシーケンシャルなデータで非常に強力なニューラルネットワークとして知られている。 しかしながら、グラフ表現におけるTransformerはデファクトスタンダードにはまだなっていない。 Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。
Transformerのグラフ構造への適用
Graphormerの構造の概念図は下記の通り。
例えば、膨大な数のフォロワーを持つ有名人は、ソーシャルネットワークのトレンドを予測する上で重要な要素である。 このような情報は現在のAttentionでは無視されているが、Transformerモデルにとって貴重な信号となるべきであると考える。
Graphormerでは、標準的な中心性尺度の一つである次数中心性をニューラルネットワークへの追加信号として利用する。 グラフの入出力(indegree, outdegree)に関して学習したembeddingをノード特徴量に加算する。
z +-は学習可能なembeddingを表している。
シーケンシャルデータと異なり、グラフ構造ではpositional encodingを適用できない。 そこで空間エンコーディングの概念を導入する。
2つのノードのペアについて
の関数を考える。 これらはノードの関係性を表し、ここでは最短経路を出力するものとする。
Attentionを表す関数に全レイヤー共通の関数bを与えることでこれを実現する。 これにより、グラフ内の他の全てのノードに注目できるというグローバルな情報を提供できる。
また、bφ(vi ,vj ) が φ(vi , vj ) に対して減少関数であることを学習したとすると、各ノードに対してモデルはその近くのノードにはより注意を払い、そこから遠いノードにはより注意を払わなくなることが期待できる。
エッジについてもアテンションに取り込む。
2つのノードについて最短経路を取得し、エッジの内積の平均を使用する。
PCQM4M-LSCを使用して評価を行った。
(GT, GT-wideと比べてパラメータ数あたりの誤差が小さくなっている)
よくわかんないけど、いい感じに値が良くなっているらしい。
(タスクの詳細と比較対象が妥当かは確認してない)
論文URL
https://arxiv.org/abs/2106.05234
著者
Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, Tie-Yan Liu
会議
NeurIPS 2021
背景
Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。
目的
Transformerのグラフ構造への適用
アプローチ