Lihu Chen, Gaël Varoquaux, Fabian M. Suchanek

概要

Learning Out-of-Vocabulary Embeddings LOVEを提案特にOOVな単語埋め込みの精度を向上。ミススペルに強い。既存の埋め込みベクトルを対照学習でpositive/negative単語間の距離をうまく学習。正例は主にデータ拡張によって作成。文字単位の編集(追加・削除・キーボード上の近い文字に置き換え等)を行う。訓練された結果を既存のモデル(FastText, BERT等)に利用可能。

実装 https://github.com/tigerchen52/love

knok / arxiv-memo

Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost #166

概要