Do Transformers Really Perform Bad for Graph Representation?

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2106.05234

著者

Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, Tie-Yan Liu

会議

NeurIPS 2021

背景

Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。

目的

Transformerのグラフ構造への適用

アプローチ

Graphormer
- ノードの重要性を考慮するためにCentrality Encodingを利用
- 各ノードペアに対して、最短経路に沿ったエッジ特徴量と学習可能な埋め込み量の内積の平均を計算し、それをAttention moduleで利用

nogawanogawa commented 2 years ago

背景

TransformerはNLP・音声などシーケンシャルなデータで非常に強力なニューラルネットワークとして知られている。しかしながら、グラフ表現におけるTransformerはデファクトスタンダードにはまだなっていない。 Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。

nogawanogawa commented 2 years ago

目的

Transformerのグラフ構造への適用

アプローチ

Graphormer
- ノードの重要性を考慮するためにCentrality Encodingを利用
- 各ノードペアに対して、最短経路に沿ったエッジ特徴量と学習可能な埋め込み量の内積の平均を計算し、それをAttention moduleで利用

nogawanogawa commented 2 years ago

Graphormer

Graphormerの構造の概念図は下記の通り。

Centrality Encoding

例えば、膨大な数のフォロワーを持つ有名人は、ソーシャルネットワークのトレンドを予測する上で重要な要素である。このような情報は現在のAttentionでは無視されているが、Transformerモデルにとって貴重な信号となるべきであると考える。

Graphormerでは、標準的な中心性尺度の一つである次数中心性をニューラルネットワークへの追加信号として利用する。グラフの入出力(indegree, outdegree)に関して学習したembeddingをノード特徴量に加算する。

z +-は学習可能なembeddingを表している。

Spatial Encoding

シーケンシャルデータと異なり、グラフ構造ではpositional encodingを適用できない。そこで空間エンコーディングの概念を導入する。

2つのノードのペアについて

の関数を考える。これらはノードの関係性を表し、ここでは最短経路を出力するものとする。

Attentionを表す関数に全レイヤー共通の関数bを与えることでこれを実現する。これにより、グラフ内の他の全てのノードに注目できるというグローバルな情報を提供できる。

また、bφ(vi ,vj ) が φ(vi , vj ) に対して減少関数であることを学習したとすると、各ノードに対してモデルはその近くのノードにはより注意を払い、そこから遠いノードにはより注意を払わなくなることが期待できる。

Edge Encoding in the Attention

エッジについてもアテンションに取り込む。

2つのノードについて最短経路を取得し、エッジの内積の平均を使用する。

nogawanogawa commented 2 years ago

評価

PCQM4M-LSC

PCQM4M-LSCを使用して評価を行った。

(GT, GT-wideと比べてパラメータ数あたりの誤差が小さくなっている）

MolHIV, MolPCBA and ZINCでの実験

よくわかんないけど、いい感じに値が良くなっているらしい。

(タスクの詳細と比較対象が妥当かは確認してない)

nogawanogawa / paper_memo