himkt / survey

3 stars 0 forks source link

[Reading] Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning #5

Open himkt opened 4 years ago

himkt commented 4 years ago

Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning

kajyuuen commented 4 years ago

一言でいうと

PU学習を利用した辞書とラベルなしデータだけで学習出来る固有表現抽出モデルの提案

概要

現在提案されている教師ありNERは性能は高いが,大規模で詳細にアノテーションされたコーパスが必要で,アノテーションコーパスを得るのが難しいドメインに対して学習を行うことが難しかった. そこで比較的入手がしやすい,ラベル無しデータと固有表現辞書のみ利用してNERを実現する方法について考案した.

貢献

手法

Label Assignment Mechanism

BIO, BIOESラベルは使わず,固有表現かそうでないかのバイナリラベルによってマッピングを行う. これは辞書を用いてラベリングを行っても,固有表現の位置情報は推測出来ないかららしい.

例: 辞書に「山田」という人名しかなかった場合,文章中の「山田太郎」という人名に間違って「山田/S-PER 太郎/O」というラベルが付与されてしまう.

Data Labeling using the Dictionary

最長一致法を用いて,辞書からラベル無しデータに対してアノテーションを行う.

Build PU Learning Classifier

Word Representation

Character-level representation + Word-level representation + Human designed features

Loss Definition

image

Label Inference

固有表現ラベル毎にPU分類器を訓練して,最も予測確率が高いラベルを採用する.

Adapted PU Learning for NER

  1. 学習済みPU学習分類器を待ちいてラベル無しデータにラベルを付与
  2. 予測されたラベルに基づき,固有表現を抽出
  3. ある単語列がk回以上固有表現が抽出され,そのときデータセット内の全てで固有表現として抽出されたときその単語列を辞書に追加する
  4. 1-3を収束するまで繰り返す

結果

スクリーンショット 2019-09-11 21 43 56

コメント