ftnext / MLPaperSummary

論文のサマリーをIssueに蓄積(arXivTimesリスペクト)
0 stars 0 forks source link

[C08-1113] Training Conditional Random Fields Using Incomplete Annotations #3

Open ftnext opened 3 years ago

ftnext commented 3 years ago

https://www.aclweb.org/anthology/C08-1113/ 👉 https://aclanthology.org/C08-1113/

2 でpartial annotationが引用されていて、どんなものか知りたくなった。

時間を決めて気になるところを読んだ


まとめ

一言で:incomplete annotations(不完全なアノテーション)を利用できるようにするための、CRFのパラメタ推定手法を提案

イントロダクション

ドメイン特定の表現を含む、文の一部をアノテーションするのが効率的 事例:日本語単語分割(Japanese Word Segmentation) partial annotationsが発生する

別の場合として、ambigious annotations 事例:品詞タグ付け 具体的にはPenn TreeBank(PTB)コーパス(nltkで触ったことあるやつ)

CRFのアルゴリズムは完全にアノテーションされた文章が必要。 この論文ではpartial annotationsとambigious annotationsに絞って、CRFの新しい手法を提案

partial annotations (2.1)

単語分割は文脈の考慮が必要で、単純な辞書によるアプローチは不適切。統計的な手法が使われてきた

知らない単語で現れると間違える(「切り傷やすり傷」の例が秀逸)

対象ドメインの単語リストは入手しやすい(例:技術用語辞書、製品名リスト) 単語リストを使ったアノテーションUIとしてKWIC(KeyWord In Context)が提案された(2006) セグメンテーションのアノテーションを、切れ目が正しいかのyes/noの決定に単純化する(←示唆を得た)

partial annotationは効果的なだけでなく、アノテーションエラーを減らす(KWICのUIを想定) 言語学者でなくドメインエキスパートがアノテーションするのでエラーが減るのは望ましい

ambigious annotations (2.2)

アノテーション手順が十分に定義されたPTBコーパスですら100を超えるambiguousな品詞タグ付けを含む(Table 1の例:data)