Open ymym3412 opened 5 years ago
PARANMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations John Wieting1 Kevin Gimpel2
NMTを利用して生成したパラフレーズデータセット「PARANMT-50M」
機械翻訳を用いることで様々なドメインのデータを使ったパラフレーズDBを作成できる
NMTでの逆翻訳を利用して、同一の内容を表現しているパラフレーズの英語文を自動生成する。 学習済みのNMTモデルを流用し、様々なドメインのデータセットを利用してパラフレーズを生成した。
パラフレーズを利用して文のベクトルを学習しSTS3012~2016のデータセットで性能検証を行った。
NMTは単語同士の翻訳を行えるが、意味(例えば感情など)を正しく伝えることはタスク的に考慮されていないため、NMTによって生成したパラフレーズでは感情表現向けのタスクへの応用に難がある
Learning paraphrastic sentence embeddings from back-translated bitext John Wieting1 Jonathan Mallinson2 Kevin Gimpel1
0. 論文
PARANMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations John Wieting1 Kevin Gimpel2
1. どんなもの?
NMTを利用して生成したパラフレーズデータセット「PARANMT-50M」
2. 先行研究と比べてどこがすごい?
機械翻訳を用いることで様々なドメインのデータを使ったパラフレーズDBを作成できる
3. 技術や手法のキモはどこ?
NMTでの逆翻訳を利用して、同一の内容を表現しているパラフレーズの英語文を自動生成する。 学習済みのNMTモデルを流用し、様々なドメインのデータセットを利用してパラフレーズを生成した。
4. どうやって有効だと検証した?
パラフレーズを利用して文のベクトルを学習しSTS3012~2016のデータセットで性能検証を行った。
5. 議論はある?
NMTは単語同士の翻訳を行えるが、意味(例えば感情など)を正しく伝えることはタスク的に考慮されていないため、NMTによって生成したパラフレーズでは感情表現向けのタスクへの応用に難がある
6. 次に読むべき論文は?
Learning paraphrastic sentence embeddings from back-translated bitext John Wieting1 Jonathan Mallinson2 Kevin Gimpel1