Open Sosuke115 opened 4 years ago
未知語彙の分散表現を学習済み分散表現の語彙のサブワード集合から推測するモデルの提案
https://arxiv.org/pdf/1809.04259.pdf
単語分散表現の語彙は限られている テストデータにて訓練データにない単語や頻度低い単語に対応できない(Out of Vocablary問題) twitterコーパスなど逐次新語が変わっていくので事前学習をやり直すのは得策ではない →本研究では追加で巨大なコーパスを用いず、事前学習済み分散表現のみを用いてOOV分散表現を推定
全ての学習済み分散表現の語彙のサブワードに対応するembedding層を作成し、各語彙ごとにサブワードに分けそれらのbag of embeddingsを入力、正解をその語彙の学習済みembeddingとして学習する。
例えばinfixで学習する場合、以下のようなサブワードに分け (<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>} その平均ベクトルBag of Strings (BoS)をとる。
(<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>}
BoSと学習済みinfix分散表現の二乗誤差をとり最適化する。
BoSを使っている。
既存手法である[1]よりWord Similarity、POS tagging、Morphosyntactic attributesで良い性能を発揮した。 生コーパスからサブワード情報を用いて学習するFasttextよりメモリはとらない
文字、単語レベルでの敵対的サンプル対策に使えそう
[1] Mimicking Word Embeddings using Subword RNNs RNNで同様の手法を提案
ひとことで言うと
未知語彙の分散表現を学習済み分散表現の語彙のサブワード集合から推測するモデルの提案
論文リンク
https://arxiv.org/pdf/1809.04259.pdf
背景
単語分散表現の語彙は限られている テストデータにて訓練データにない単語や頻度低い単語に対応できない(Out of Vocablary問題) twitterコーパスなど逐次新語が変わっていくので事前学習をやり直すのは得策ではない →本研究では追加で巨大なコーパスを用いず、事前学習済み分散表現のみを用いてOOV分散表現を推定
手法のキモ
全ての学習済み分散表現の語彙のサブワードに対応するembedding層を作成し、各語彙ごとにサブワードに分けそれらのbag of embeddingsを入力、正解をその語彙の学習済みembeddingとして学習する。
例えばinfixで学習する場合、以下のようなサブワードに分け
(<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>}
その平均ベクトルBag of Strings (BoS)をとる。BoSと学習済みinfix分散表現の二乗誤差をとり最適化する。
先行研究との差異
BoSを使っている。
評価方法
既存手法である[1]よりWord Similarity、POS tagging、Morphosyntactic attributesで良い性能を発揮した。 生コーパスからサブワード情報を用いて学習するFasttextよりメモリはとらない
所感
文字、単語レベルでの敵対的サンプル対策に使えそう
関連論文
[1] Mimicking Word Embeddings using Subword RNNs RNNで同様の手法を提案