Graph Convolution over Pruned Dependency Trees Improves Relation Extraction

short summary

文中の、主語と目的語（subject and object）の関係を分類するタスクであるrelation extractionに、graph convolutionを適用した論文。(ex, 文中のpersonとorganizationをemployed_atという関係に分類する） GCNのdependency treeへの適用によるentity-centricな表現抽出に加え、主な係り受け関係以外の枝刈りを工夫することで、TACREAD datasetでSOTA.

model

通常のgraph convolution operation

しかし、これだと

tokenごとに次数(degree)が大きく違うことにより、ノードの持つ情報を無視して高次数のノードが重視されてしまう可能性
1つ前の層の自身を反映できないという問題がある。

そこで、次のように改良

self-loopを加え、非線形変換を加える前に次数で割って平均をとっている。
行列表現

GCNによるencode

上図のように、GCN適用後max pooling
ただし、entity token (subject and object）周りの情報は、relation classificationでは重要度が高い。そこで、GCNの最終層の出力の、主語と目的語に対応する部分（上図の目的語のように複数語の可能性あり）は、別で改めてpoolingを行い、concat

その後、FFNN(fc層）、softmaxを経て、各relationへの確率分布を得る。

Contextulized GCN

前述のGCNにはまだ不十分な点がある。

inputのword vectorが、語順や曖昧性回避のためのcontext情報を持っていない。
GCNは構文木が正しいことに依存して文から重要な情報を引き出すが、既存の構文解析アルゴリズムは、往々にして不完全。

そこで、まず、bi-directional lstmに通してcontextを考慮した表現を得たのち、それをGCNの入力とする。

path-centric pruning

relationに寄与する情報のほとんどは、lowest common ancestor (LCA) （上図の深緑のノード）をrootとするsubtree内に大抵ある。先行研究により、このスコープ外のtokenを除くことで精度向上が確認されている。しかし、例えばsubjectとobject間のshortest pathでは、枝を刈りすぎていて、必要な情報も除いてしまっている。そこで、LCAのsubtree内のsubject, object間のpathから一定距離K離れたノードまでを残すようにする（K=∞：LCAのsubtree内の全ノード考慮）。K=1がベストだった。

結果

既存のdependency-based model, neural sequence model（dependency tree使わない）を上回った。

URL

https://arxiv.org/abs/1809.10185 https://github.com/qipeng/gcn-over-pruned-trees

author

Yuhao Zhang, Peng Qi, Christopher D. Manning Stanford University Stanford, CA 94305 {yuhaozhang, pengqi, manning}@stanford.edu

year

EMNLP 2018

kacky24 / papers