Open himkt opened 5 years ago
PU学習を利用した辞書とラベルなしデータだけで学習出来る固有表現抽出モデルの提案
現在提案されている教師ありNERは性能は高いが,大規模で詳細にアノテーションされたコーパスが必要で,アノテーションコーパスを得るのが難しいドメインに対して学習を行うことが難しかった. そこで比較的入手がしやすい,ラベル無しデータと固有表現辞書のみ利用してNERを実現する方法について考案した.
BIO, BIOESラベルは使わず,固有表現かそうでないかのバイナリラベルによってマッピングを行う. これは辞書を用いてラベリングを行っても,固有表現の位置情報は推測出来ないかららしい.
例: 辞書に「山田」という人名しかなかった場合,文章中の「山田太郎」という人名に間違って「山田/S-PER 太郎/O」というラベルが付与されてしまう.
最長一致法を用いて,辞書からラベル無しデータに対してアノテーションを行う.
Word Representation
Character-level representation + Word-level representation + Human designed features
Loss Definition
Label Inference
固有表現ラベル毎にPU分類器を訓練して,最も予測確率が高いラベルを採用する.
Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning