himkt / survey

3 stars 0 forks source link

[Reading] Better Modeling of Incomplete Annotations for Named Entity Recognition #20

Open himkt opened 5 years ago

himkt commented 5 years ago

Better Modeling of Incomplete Annotations for Named Entity Recognition

himkt commented 5 years ago

一言でいうと

部分アノテーションで学習可能かつ性能の高い固有表現抽出器の提案.

論文リンク

https://www.aclweb.org/anthology/N19-1079

掲載誌名or会議名/出版年

NAACL 2019

著者

Zhanming Jie (StatNLP) et al.

概要

固有表現抽出のタスクでは文に含まれる全ての単語に対して 固有表現タグが付与されていることが仮定されているが, 実応用を考えると全ての単語にタグが付与されている状況は想定しにくい. (単語列全体にアノテーションを付与するのはコストが高い)

実運用を考えると,単語列全体ではなく単語列の一部の部分単語列にのみ アノテーションが付与されている, Incomplete Annotation という状況が嬉しい. 提案手法はこの Incomplete Annotation 状況下で良い性能を発揮する手法である.

Incomplete Annotation NER はいくつか先行研究がある. 固有表現抽出は単語列を入力にとって固有表現タグ列を出力するため 系列に対するモデルが一般的だが,これに対して固有表現タグ列に欠損がある Incomplete Annotation NER では複数のアプローチが取られる. 具体的には, (i) 欠損がある箇所もなんらかのタグがあることを想定して系列に対するモデルを適用 するアプローチ と (ii) 固有表現タグが付与されている箇所のみを用いて点推定を行うモデルを 適用するアプローチ であり,提案手法は前者である. 後者の手法には Structured PerceptronLogistic Regression / SVM が使われる.

前者の話に戻る.欠損がある箇所になんらかのタグを想定するアプローチでは,以下に示す (b, c, d) のいずれかの形でラベルを仮定(?)する.

Gold / Simple のモデルのロス関数は以下.

Screen Shot 2019-07-03 at 20 27 22

これに対して,提案手法( Ours )のロス関数は以下のようになる.分布 q が導入されている. Uniform はこのロス関数の特殊系( q=1 )とみなせる.

Screen Shot 2019-07-03 at 20 29 09

Gold/Simple, Uniform, 提案手法( Ours ) を視覚的に表すと↓のようになる. Uniform は欠損箇所について全てのタグが等確率で割り当てられる一方, 提案手法( Ours )はそれぞれのタグに推定された確率が割り当てられる.

Screen Shot 2019-07-03 at 20 23 48

Uniform と提案手法の差分は q がどのような形をしているか,である. NER ではデータ中に出現する単語の大部分には O タグが割り当てられているため, 欠損箇所について一様分布を仮定してしまうと具合が悪い.

q は事前学習が重要で, Simple の手法を用いて学習したモデルを使う. q は hard な分布( one of k 符号化されている)と soft な分布(足して1となるようなベクトルとなっている)の二種類があり, hard な場合には viterbi アルゴリズム,soft な場合には前向き後ろ向きアルゴリズムを 使って q を推定する.

実験結果を示す. Incomplete Anontation NER の手法は F値が低くなってしまいがちだったが, 提案手法は Complete Annotation 状況下の抽出器と比較しても悪くない(というよりとてもよい) 性能を発揮していることがわかった. LSTM-M-CRF (既存研究)はなんでこんなに F値が低くなってしまっているんだろう?

Screen Shot 2019-07-03 at 20 39 47

貢献

Incomplete Annotation 状況下でも比較的実用的な性能の固有表現抽出器を提案している.

コメント

ラベルを欠損させるために CoNLL 2003 データセットのタグをランダムに除去する, という操作をしているが.これはあまり実用上の想定に合っていないようにも思える.

関連リンク