Open ymym3412 opened 5 years ago
GNEG: Graph-Based Negative Sampling for word2vec Zheng Zhang, Pierre Zweigenbaum
word2vecでのnegative samplingで使用するノイズ分布をグラフを使って改善する
unigramの共起ではないnegative samplingを行う
コーパスから共起をベースにしたグラフを構築。そしてそのグラフでtarget wordsからのランダムウォークをベースにnegative sampling向けのノイズ分布を生成し単語ベクトルを学習させる。
WordSim-353といった単語ベクトル評価用のデータセットで検証。 通常の手法と比べると改善が見られる。
妥当なnegative samplingの行い方で単語ベクトルの品質が改善される研究は結構みる
An experimental analysis of noise-contrastive estimation: the noise distribution matters Matthieu Labeau and Alexandre Allauzen.
0. 論文
GNEG: Graph-Based Negative Sampling for word2vec Zheng Zhang, Pierre Zweigenbaum
1. どんなもの?
word2vecでのnegative samplingで使用するノイズ分布をグラフを使って改善する
2. 先行研究と比べてどこがすごい?
unigramの共起ではないnegative samplingを行う
3. 技術や手法のキモはどこ?
コーパスから共起をベースにしたグラフを構築。そしてそのグラフでtarget wordsからのランダムウォークをベースにnegative sampling向けのノイズ分布を生成し単語ベクトルを学習させる。
4. どうやって有効だと検証した?
WordSim-353といった単語ベクトル評価用のデータセットで検証。 通常の手法と比べると改善が見られる。
5. 議論はある?
妥当なnegative samplingの行い方で単語ベクトルの品質が改善される研究は結構みる
6. 次に読むべき論文は?
An experimental analysis of noise-contrastive estimation: the noise distribution matters Matthieu Labeau and Alexandre Allauzen.