Sosuke115 / paper-reading

4 stars 1 forks source link

Generalizing Word Embeddings using Bag of Subwords[EMNLP, 2018] #32

Open Sosuke115 opened 3 years ago

Sosuke115 commented 3 years ago

ひとことで言うと

未知語彙の分散表現を学習済み分散表現の語彙のサブワード集合から推測するモデルの提案

論文リンク

https://arxiv.org/pdf/1809.04259.pdf

背景

単語分散表現の語彙は限られている テストデータにて訓練データにない単語や頻度低い単語に対応できない(Out of Vocablary問題) twitterコーパスなど逐次新語が変わっていくので事前学習をやり直すのは得策ではない →本研究では追加で巨大なコーパスを用いず、事前学習済み分散表現のみを用いてOOV分散表現を推定

手法のキモ

全ての学習済み分散表現の語彙のサブワードに対応するembedding層を作成し、各語彙ごとにサブワードに分けそれらのbag of embeddingsを入力、正解をその語彙の学習済みembeddingとして学習する。

例えばinfixで学習する場合、以下のようなサブワードに分け (<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>} その平均ベクトルBag of Strings (BoS)をとる。

Screen Shot 2020-10-11 at 16 17 55

BoSと学習済みinfix分散表現の二乗誤差をとり最適化する。

Screen Shot 2020-10-11 at 10 18 20

先行研究との差異

BoSを使っている。

評価方法

既存手法である[1]よりWord Similarity、POS tagging、Morphosyntactic attributesで良い性能を発揮した。 生コーパスからサブワード情報を用いて学習するFasttextよりメモリはとらない

所感

文字、単語レベルでの敵対的サンプル対策に使えそう

関連論文

[1] Mimicking Word Embeddings using Subword RNNs RNNで同様の手法を提案