ymym3412 / acl-papers

paper summary of Association for Computational Linguistics
184 stars 10 forks source link

Probabilistic FastText for Multi-Sense Word Embeddings #265

Open ymym3412 opened 6 years ago

ymym3412 commented 6 years ago

0. 論文

Probabilistic FastText for Multi-Sense Word Embeddings Ben Athiwaratkun, Andrew Gordon Wilson, Anima Anandkumar

1. どんなもの?

word2gmモデルにサブワードの仕組みを取り入れ低頻度語にも対応

2. 先行研究と比べてどこがすごい?

低頻度語への対策としてサブワードを取り入れたところ

3. 技術や手法のキモはどこ?

通常のSGNSなどでは単語の多義性を扱えない問題があったが、それを解決する1手法として単語の語義を混合ガウス分布で表現するword2gmが提案されている。 しかしword2gmも低頻度語がうまく扱えないという問題があり、そこでFASTTEXTのようにサブワードの和として意味を表現する手法を取り入れword2gmを拡張した。

image

4. どうやって有効だと検証した?

単語のNearest Neighbor探索やWord Similarityタスクで検証。 NN探索ではword2gmのように多義性を扱えている。Word Similarityはスコアの平均では勝っているがword2gmと五分

5. 議論はある?

語義性の数Kは多くの場合2で済む

6. 次に読むべき論文は?

Multimodal Word Distributions Ben Athiwaratkun, Andrew Gordon Wilson

ymym3412 commented 5 years ago

第10回最先端NLP勉強会での資料 http://yoehara.com/files/snlp2018_ehara.pdf