nogawanogawa / paper_memo

4 stars 0 forks source link

Do Transformers Really Perform Bad for Graph Representation? #42

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2106.05234

著者

Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, Tie-Yan Liu

会議

NeurIPS 2021

背景

Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。

目的

Transformerのグラフ構造への適用

アプローチ

image

nogawanogawa commented 2 years ago

背景

TransformerはNLP・音声などシーケンシャルなデータで非常に強力なニューラルネットワークとして知られている。 しかしながら、グラフ表現におけるTransformerはデファクトスタンダードにはまだなっていない。 Transformerアーキテクチャがグラフ構造に適しているかどうか、またグラフ表現学習においてどのように機能させるかは、まだ未解決の問題である。

nogawanogawa commented 2 years ago

目的

Transformerのグラフ構造への適用

アプローチ

nogawanogawa commented 2 years ago

Graphormer

Graphormerの構造の概念図は下記の通り。

image

Centrality Encoding

例えば、膨大な数のフォロワーを持つ有名人は、ソーシャルネットワークのトレンドを予測する上で重要な要素である。 このような情報は現在のAttentionでは無視されているが、Transformerモデルにとって貴重な信号となるべきであると考える。

Graphormerでは、標準的な中心性尺度の一つである次数中心性をニューラルネットワークへの追加信号として利用する。 グラフの入出力(indegree, outdegree)に関して学習したembeddingをノード特徴量に加算する。

image

z +-は学習可能なembeddingを表している。

Spatial Encoding

シーケンシャルデータと異なり、グラフ構造ではpositional encodingを適用できない。 そこで空間エンコーディングの概念を導入する。

2つのノードのペアについて

image

の関数を考える。 これらはノードの関係性を表し、ここでは最短経路を出力するものとする。

image

Attentionを表す関数に全レイヤー共通の関数bを与えることでこれを実現する。 これにより、グラフ内の他の全てのノードに注目できるというグローバルな情報を提供できる。

また、bφ(vi ,vj ) が φ(vi , vj ) に対して減少関数であることを学習したとすると、各ノードに対してモデルはその近くのノードにはより注意を払い、そこから遠いノードにはより注意を払わなくなることが期待できる。

Edge Encoding in the Attention

エッジについてもアテンションに取り込む。

image

2つのノードについて最短経路を取得し、エッジの内積の平均を使用する。

nogawanogawa commented 2 years ago

評価

PCQM4M-LSC

PCQM4M-LSCを使用して評価を行った。

(GT, GT-wideと比べてパラメータ数あたりの誤差が小さくなっている)

image

MolHIV, MolPCBA and ZINCでの実験

よくわかんないけど、いい感じに値が良くなっているらしい。

image

(タスクの詳細と比較対象が妥当かは確認してない)