Open IkokObi opened 4 years ago
翻訳タスクの目的関数を式(2)から式(3)へと変更する
ただし,実際には期待値を取ることは難しいので,サンプリングによって代替する(論文中ではk=1
としている)
各subwordの出現確率は独立という過程を入れる
その下で,全体の最尤法を行う
学習時にはp(x)
と語彙集合ν
を同時に学習する必要がある.適当な語彙集合からスタートし,p(x)
の学習にはEMアルゴリズムを,ν
は重要なvocabを残しつつ,p(x)
の大きいsubwordを残して語彙数を調整する
l=∞
)ではなく上限を定める(l=64
)の方が安定している (Figure 1)
ざっくり言うと
翻訳タスクの目的関数をsubword tokenizationの期待値として定式化し直し,tokenization結果をサンプリングしNMTを学習することで精度を上げた.サンプリングが正則化やdata augementationと似た役割を果たしている.tokenizationをサンプリングするために,決定論的ではなく確率的な扱いが出来るUnigram language modelを提案.
キーワード
1. 情報
論文リンク
https://www.aclweb.org/anthology/P18-1007/
著者
Taku Kudo (Google)
投稿日付
2018/8/29 (ACL 2018)
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?