Pooled Contextualized Embeddings for Named Entity Recognition

一言でいうと

Flair embeddings (文字ベース言語モデルを用いた単語埋め込み手法) の改善を行った論文． Pooled contextualized embedding を従来の Flair embedding に追加し， CoNLL-2003 および WNUT-17 (shared task) データで実験，良い性能を報告している．

論文リンク

https://www.aclweb.org/anthology/N19-1078

掲載誌名or会議名/出版年

NAACL 2019

著者

Alan Akbik (Zalando Research)

概要

「Entity は読者が理解できると仮定される文脈では基本的に曖昧な使われ方をする」（Fung Permadi ( Taiwan ) v Indra の Indra は組織名 (ORG) とも人物名 (PER) とも解釈できる．）
このような Entity についての説明はそれよりも前の文で行われている

という直感に基づき，「過去の入力を考慮すれば固有表現抽出の性能を向上させることが可能ではないか」という仮説を立ててモデリングを行っている．具体的には，過去に出現した単語の埋め込みを memory と呼ばれるブロックに保存しておき，次に同じ単語が出現した場合は memory から埋め込みを取得し現在の単語の埋め込みと結合する． memory には複数の埋め込みが含まれうる（単語の出現のたびに memory に埋め込みを追加するため）ので，それらを pooling する必要がある．この pooling 方法が main idea である．

単語埋め込みは単語が出現するたびに変化するので，「 evolving word representations」である．

CoNLL 2003 データおよび WNUT-17 データで実験を行った結果， CoNLL 2003 では顕著な性能の向上がみられた一方， WNUT-17 データではあまり向上がみられなかった．これは，「 WNUT-17 では同じ entity はあまり繰り返し出現しない」というデータセットの特性と提案手法の特性がマッチしていないためであると考えられる．

系列ラベリングモデル全体としては LSTM-CRF であり， LSTM への入力は contextualized word embedding の他に既存の学習済み単語の分散表現も用いられていたが，学習済み分散表現を除いて実験（ contextualized word embedding のみ LSTM に入力）しても promising な結果が得られた．（= contextualized word embedding は有効である，という主張）

過去の入力を pool に追加するという特性上，データの入力順番によって実験結果が大きく変化しうるのではないか？と思った．どうなんだろう？

kajyuuen / nlp-survey-ner