tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

Neural Machine Translation of Rare Words with Subword Units #1

Open tm4roon opened 5 years ago

tm4roon commented 5 years ago

Neural Machine Translation of Rare Words with Subword Units

ニューラル機械翻訳で低頻度語や未知語に対応するため、単語より細かい分割単位(Sub-word)によるtokenize手法を提案。具体的にはByte-Pair-Encoding (BPE)を用いてtokenizeする。BPEの概略は次の通りである: (1) 文字レベルの分割で頻度をカウントし、それを初期辞書とする。(2) bigramを取り、頻度が高いものを連結し、一つのトークンとみなす。(3) (2)の処理を目的の語彙サイズになるまで繰り返す。BPEを用いたtokenizeにより、WMT 15において、BLEUが1.1 pt (En → Ge)、1.3 pt (En → Ru)向上。

文献情報