固有表現抽出タスクにおいて、様々なアクティブラーニング手法の効果を検証した論文。出力確率の最も高いトークンの確率を利用してスコアリングするLeast Confidence (LC)を発展させたMaximum Normalized Log Probability (MNLP)や、Dropoutしたままモデルに推論させ、正解を出力できた回数を利用するBayesian Active Learning by Disagreement (BALD)などを利用。 結果として、アクティブラーニングを利用することで、20~30%程度のアノテーション量でBest Modelと同等程度の性能が達成できることを示した。
Deep Active Learning for Named Entity Recognition
固有表現抽出タスクにおいて、様々なアクティブラーニング手法の効果を検証した論文。出力確率の最も高いトークンの確率を利用してスコアリングするLeast Confidence (LC)を発展させたMaximum Normalized Log Probability (MNLP)や、Dropoutしたままモデルに推論させ、正解を出力できた回数を利用するBayesian Active Learning by Disagreement (BALD)などを利用。 結果として、アクティブラーニングを利用することで、20~30%程度のアノテーション量でBest Modelと同等程度の性能が達成できることを示した。
文献情報