2 でpartial annotationが引用されていて、どんなものか知りたくなった。

時間を決めて気になるところを読んだ

まとめ

一言で：incomplete annotations（不完全なアノテーション）を利用できるようにするための、CRFのパラメタ推定手法を提案

ドメイン特定の表現を含む、文の一部をアノテーションするのが効率的事例：日本語単語分割（Japanese Word Segmentation） partial annotationsが発生する

別の場合として、ambigious annotations 事例：品詞タグ付け　具体的にはPenn TreeBank（PTB）コーパス（nltkで触ったことあるやつ）

CRFのアルゴリズムは完全にアノテーションされた文章が必要。この論文ではpartial annotationsとambigious annotationsに絞って、CRFの新しい手法を提案

単語分割は文脈の考慮が必要で、単純な辞書によるアプローチは不適切。統計的な手法が使われてきた

知らない単語で現れると間違える（「切り傷やすり傷」の例が秀逸）

対象ドメインの単語リストは入手しやすい（例：技術用語辞書、製品名リスト）単語リストを使ったアノテーションUIとしてKWIC（KeyWord In Context）が提案された（2006）セグメンテーションのアノテーションを、切れ目が正しいかのyes/noの決定に単純化する（←示唆を得た）

partial annotationは効果的なだけでなく、アノテーションエラーを減らす（KWICのUIを想定）言語学者でなくドメインエキスパートがアノテーションするのでエラーが減るのは望ましい

アノテーション手順が十分に定義されたPTBコーパスですら100を超えるambiguousな品詞タグ付けを含む（Table 1の例：data）