Open himkt opened 5 years ago
学習済みの文字レベル言語モデルを単語特徴に取り入れて既存手法の性能を改善した手法.
最近流行りの Contextualized Word Embeddings 系研究. flair というツールが公式実装. ELMo よりも性能が高いのにあまり注目されていないように感じる.なんでだろう. COLING は NLP 以外の界隈の人は読まない,ということなのかな.
雰囲気は↓のような感じ.まずは文を whitespace もそのまま文字レベルの言語モデルに入力する. 各文字について言語モデルの隠れ状態が得られるので,単語の始点と終点(の直前・直後の whitespace の隠れ状態)を単語の特徴ベクトルとして使う.
各単語に注目すると↓のようになる.
Washington
が赤色・青色のボーダー柄になっているのは,
双方向言語モデルの出力なので順方向・逆方向の両方の情報が含まれていることを表している.
学習済みの言語モデルは
タスクは固有表現抽出の他に品詞タグ推定とチャンキング. 固有表現抽出は CoNLL 2003 [Sang+, 2003] . チャンキングは CoNLL 2000 [Sang+, 2000]. 品詞タグ推定は Pen treebank [Marcus+, 1993].
言語モデルは読み取れる限り以下のようなハイパーパラメータを持つ.
1 週間学習を回してある. early stopping もしている.
系列ラベリング側のモデルは
学習済みの単語分散表現も一緒に使えるかどうか実験で検証している.
文字レベル BiLSTM [Lample+, 2016] も上記の単語特徴に加えて Ablation Study の対象になっている.
いっぱい実験している.
Propose+word+char がもっとも良い性能となった. Propose+word の時点でほぼ Propose+word+char の性能と等しくなっており, 文字特徴の貢献は少ないと指摘している. ELMo の特徴ベクトルを入れると逆にデグレしていることがわかる. (特に論文でこれについての言及はないんだけどなんでだろう)
提案手法は LSTM-CRF ベースのモデルだが,
CRF はラベル間の遷移を考慮し,ラベル列全体に対するモデリングを行う役割を担っている. LSTM は単語レベルの特徴を系列全体を考慮した特徴に変換する役割を担っている. つまり, CRF をモデルから除くことはラベルの遷移のしやすさなどを無視し各単語特徴に基づき点推定を行うことに相当し,LSTM を全結合層に置き換えることは単語間の関係を無視した特徴量を用いることに相当している.
学習済みの分散表現のみを用いた LSTM-CRF (手法1 と呼ぶ) から LSTM/CRF を除くとモデルの性能が大きく劣化することがわかる. これに対して,提案手法は CRF を除いてた際のモデルの性能の劣化が非常に少なく, また LSTM を除いた時のモデルの性能も手法1と比較すると小さい劣化(日本語正しい?)にとどまっている.
この結果から,文字レベルの言語モデルが単語間の関係を考慮した特徴量を獲得できていると結論付けている.
文字レベルの特徴を用いる有名な関連研究としては ELMo と [Liu+, 2017] がある.
ELMo と比較すると必要な計算資源の面で利点がある ( ELMo は学習に 32 GPUs & 5 weeks 必要 / 提案手法は 1 GPU & 1 week)
Liu+ は系列ラベリングと学習データ中での言語モデリングの同時学習を行う手法であり, 言語モデルの学習に使えるデータは系列ラベリングの学習データのみである. 一方で,提案手法はラベルなしの生コーパスを使える.
必要になる計算資源が現実的に用意できそうで, 性能が非常に良い点で魅力的な手法だと思う. 著者の所属している Zalando Research はこの手法を後続して研究していて,今後も進展がありそう.
Contextual String Embeddings for Sequence Labeling