These commits are old ones, including https://github.com/izuna385/papers/wiki . The latest commit is here: https://github.com/izuna385/papers_reading
0
stars
0
forks
source link
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF #7
Open
izuna385 opened 6 years ago
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
Abstract
1. Introduction
2. Neural Network Architecture
2.1 文字レベル表現獲得のためのCNN
この論文ではcharacter embeddingのみを使用し、文字の種類を特徴量として加味するといったことはしない。
2.2 Bi-LSTM
2.3 CRF(conditional random field)
sequence labelingタスクでは、近傍のラベル間同士の関係を考慮しながらlabelの系列をdecodeするのが良い。
例えばPOStaggingでは、形容詞タグの後には、動詞タグよりも名詞タグが来る確率が高い。
NERタスクでは、(I-*** はタグの最初でないということを意味するが) I-PERの後にI-ORG が来ることはありえない。
よって、各ラベルを(周りのタグを無視して)独立でdecodeするのではなく、
条件付きrandom field用いてラベルの系列(sequence)を同時に(jointly)decodeするのが良い。
系列データ $\mathbf{z} = { \mathbf{z}i } \space{i=1}^{n}$ ,各 $\mathbf{z}_i$ に対応するラベルデータ $\mathbf{y} = { \mathbf{y}i } \space{i=1}^{n}$ が存在するとする。
$\mathcal{Y}(\mathbf{z})$ : input $\mathbf{z}$ に対して、取りうるlabel/label sequence全体の集合
このとき、条件付き確率を以下のように定義する。
$$ p(\mathbf{y}|\mathbf{z};\mathbf{W},\mathbf{b}) = \frac{\prod_{i=1}^{n} \psii(y{i-1},yi,\mathbf{z})}{\sum{y'\in\mathcal{Y(\mathbf{z})}} \prod_{i=1}^{n} \psii({y'}{i-1},{y'}_i,\mathbf{z})}$$
ただし、potential function は以下のように定義する。
$$ \psii(y',y,\mathbf{z}) = \mathrm{exp}({\mathbf{W}}{y',y}^{T} + {\mathbf{b}}_{y',y}) $$
$p$ が最大を取るように $\mathbf{W,b}$ をtrainする。
2.4 BiLSTM-CNNs-CRF
3 Network Training
3.1 Parameter Initialization
Word embedding
Character embedding
3.2 Optimization Algorithm
4 Experiments