End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

Abstract

CNN, Bi-LSTM, CRFを組み合わせて、
単語レベル+文字レベルのrepresentationから
POStagging/NER を行い 97.55%/91.21% の精度を得た。

1. Introduction

文字をCNNでencodingし、文字レベル表現+単語レベ表現を結合し、
Bi-LSTMに系列データとして食わせて,文脈情報を加味した隠れベクトルを得る。
更にBi-LSTMの上の層に系列CRF層を追加し、一文全体でラベルを同時(jointly )にdecodeする。

2. Neural Network Architecture

2.1 文字レベル表現獲得のためのCNN

この論文ではcharacter embeddingのみを使用し、文字の種類を特徴量として加味するといったことはしない。　

2.2 Bi-LSTM

RNNの勾配消失/爆発問題に対応するLSTM
更に、過去だけの情報のみ用いていたLSTMを双方向化したBi-LSTMの説明
今までやった部分なので省略

2.3 CRF(conditional random field)

sequence labelingタスクでは、近傍のラベル間同士の関係を考慮しながらlabelの系列をdecodeするのが良い。
例えばPOStaggingでは、形容詞タグの後には、動詞タグよりも名詞タグが来る確率が高い。
NERタスクでは、(I-*** はタグの最初でないということを意味するが) I-PERの後にI-ORG が来ることはありえない。
よって、各ラベルを(周りのタグを無視して)独立でdecodeするのではなく、
条件付きrandom field用いてラベルの系列(sequence)を同時に(jointly)decodeするのが良い。
系列データ $\mathbf{z} = { \mathbf{z}i } \space{i=1}^{n}$ ,各 $\mathbf{z}_i$ に対応するラベルデータ $\mathbf{y} = { \mathbf{y}i } \space{i=1}^{n}$ が存在するとする。
$\mathcal{Y}(\mathbf{z})$ : input $\mathbf{z}$ に対して、取りうるlabel/label sequence全体の集合

このとき、条件付き確率を以下のように定義する。

$$ p(\mathbf{y}|\mathbf{z};\mathbf{W},\mathbf{b}) = \frac{\prod_{i=1}^{n} \psii(y{i-1},yi,\mathbf{z})}{\sum{y'\in\mathcal{Y(\mathbf{z})}} \prod_{i=1}^{n} \psii({y'}{i-1},{y'}_i,\mathbf{z})}$$

ただし、potential function は以下のように定義する。

$$ \psii(y',y,\mathbf{z}) = \mathrm{exp}({\mathbf{W}}{y',y}^{T} + {\mathbf{b}}_{y',y}) $$

$p$ が最大を取るように $\mathbf{W,b}$ をtrainする。

2.4 BiLSTM-CNNs-CRF

繰り返し述べているように、以上を組み合わせてモデルをFig3 のように構成する。

3 Network Training

3.1 Parameter Initialization

Word embedding

GloVe embedding(100-dim) を基本的には用いる。（重要）
Character embedding
dim = 30, $[-\sqrt{\frac{3}{dim}}, +\sqrt{\frac{3}{dim}}]$ から一様サンプルして初期化

3.2 Optimization Algorithm

SGD
character embedding と Bi-LSTM のinput/output vector に対してdropoutを適用

4 Experiments

NERについてはCoNLL-2003を用います。(重要)

izuna385 / papers

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF #7