Open ymym3412 opened 6 years ago
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings Mikel Artetxe, Gorka Labaka, Eneko Agirre
2言語間の単語埋め込みのマッピングを教師なしで学習する手法
各言語の埋め込み行列の初期化に工夫を加える
2言語間の対訳辞書なしで単語埋め込みのマッピングを獲得する。 2言語の埋め込み行列を変換する行列WxとWzを学習する。2言語間の対応する単語の埋め込みベクトルをWxとWzで変換したものの内積を最大化するようにパラメータを更新するが、2言語の間の対応を得るために近傍探索を行う。 この近傍探索の精度を上げるために、埋め込み行列に初期化を行う。
言語間の対応付けのデータセットでaccuracyを計測。 教師ありの手法を上回る。
初期化やCSLS retrievalを行わないと全く精度が出ない
Learning bilingual word embeddings with (almost) no bilingual data Mikel Artetxe; Gorka Labaka; Eneko Agirre
「Learning bilingual word embeddings with (almost) no bilingual data」のサマリ https://github.com/ymym3412/acl-papers/issues/55
0. 論文
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings Mikel Artetxe, Gorka Labaka, Eneko Agirre
1. どんなもの?
2言語間の単語埋め込みのマッピングを教師なしで学習する手法
2. 先行研究と比べてどこがすごい?
各言語の埋め込み行列の初期化に工夫を加える
3. 技術や手法のキモはどこ?
2言語間の対訳辞書なしで単語埋め込みのマッピングを獲得する。 2言語の埋め込み行列を変換する行列WxとWzを学習する。2言語間の対応する単語の埋め込みベクトルをWxとWzで変換したものの内積を最大化するようにパラメータを更新するが、2言語の間の対応を得るために近傍探索を行う。 この近傍探索の精度を上げるために、埋め込み行列に初期化を行う。
4. どうやって有効だと検証した?
言語間の対応付けのデータセットでaccuracyを計測。 教師ありの手法を上回る。
5. 議論はある?
初期化やCSLS retrievalを行わないと全く精度が出ない
6. 次に読むべき論文は?
Learning bilingual word embeddings with (almost) no bilingual data Mikel Artetxe; Gorka Labaka; Eneko Agirre