Generalizing Word Embeddings using Bag of Subwords[EMNLP, 2018]

ひとことで言うと

未知語彙の分散表現を学習済み分散表現の語彙のサブワード集合から推測するモデルの提案

論文リンク

https://arxiv.org/pdf/1809.04259.pdf

背景

単語分散表現の語彙は限られているテストデータにて訓練データにない単語や頻度低い単語に対応できない（Out of Vocablary問題） twitterコーパスなど逐次新語が変わっていくので事前学習をやり直すのは得策ではない →本研究では追加で巨大なコーパスを用いず、事前学習済み分散表現のみを用いてOOV分散表現を推定

手法のキモ

全ての学習済み分散表現の語彙のサブワードに対応するembedding層を作成し、各語彙ごとにサブワードに分けそれらのbag of embeddingsを入力、正解をその語彙の学習済みembeddingとして学習する。

例えばinfixで学習する場合、以下のようなサブワードに分け (<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>} その平均ベクトルBag of Strings (BoS)をとる。

BoSと学習済みinfix分散表現の二乗誤差をとり最適化する。

Screen Shot 2020-10-11 at 10 18 20

先行研究との差異

BoSを使っている。

評価方法

既存手法である[1]よりWord Similarity、POS tagging、Morphosyntactic attributesで良い性能を発揮した。生コーパスからサブワード情報を用いて学習するFasttextよりメモリはとらない

所感

文字、単語レベルでの敵対的サンプル対策に使えそう

Sosuke115 / paper-reading