Open ymym3412 opened 6 years ago
Probabilistic FastText for Multi-Sense Word Embeddings Ben Athiwaratkun, Andrew Gordon Wilson, Anima Anandkumar
word2gmモデルにサブワードの仕組みを取り入れ低頻度語にも対応
低頻度語への対策としてサブワードを取り入れたところ
通常のSGNSなどでは単語の多義性を扱えない問題があったが、それを解決する1手法として単語の語義を混合ガウス分布で表現するword2gmが提案されている。 しかしword2gmも低頻度語がうまく扱えないという問題があり、そこでFASTTEXTのようにサブワードの和として意味を表現する手法を取り入れword2gmを拡張した。
単語のNearest Neighbor探索やWord Similarityタスクで検証。 NN探索ではword2gmのように多義性を扱えている。Word Similarityはスコアの平均では勝っているがword2gmと五分
語義性の数Kは多くの場合2で済む
Multimodal Word Distributions Ben Athiwaratkun, Andrew Gordon Wilson
第10回最先端NLP勉強会での資料 http://yoehara.com/files/snlp2018_ehara.pdf
0. 論文
Probabilistic FastText for Multi-Sense Word Embeddings Ben Athiwaratkun, Andrew Gordon Wilson, Anima Anandkumar
1. どんなもの?
word2gmモデルにサブワードの仕組みを取り入れ低頻度語にも対応
2. 先行研究と比べてどこがすごい?
低頻度語への対策としてサブワードを取り入れたところ
3. 技術や手法のキモはどこ?
通常のSGNSなどでは単語の多義性を扱えない問題があったが、それを解決する1手法として単語の語義を混合ガウス分布で表現するword2gmが提案されている。 しかしword2gmも低頻度語がうまく扱えないという問題があり、そこでFASTTEXTのようにサブワードの和として意味を表現する手法を取り入れword2gmを拡張した。
4. どうやって有効だと検証した?
単語のNearest Neighbor探索やWord Similarityタスクで検証。 NN探索ではword2gmのように多義性を扱えている。Word Similarityはスコアの平均では勝っているがword2gmと五分
5. 議論はある?
語義性の数Kは多くの場合2で済む
6. 次に読むべき論文は?
Multimodal Word Distributions Ben Athiwaratkun, Andrew Gordon Wilson