Open tm4roon opened 5 years ago
ニューラル機械翻訳で低頻度語や未知語に対応するため、単語より細かい分割単位(Sub-word)によるtokenize手法を提案。具体的にはByte-Pair-Encoding (BPE)を用いてtokenizeする。BPEの概略は次の通りである: (1) 文字レベルの分割で頻度をカウントし、それを初期辞書とする。(2) bigramを取り、頻度が高いものを連結し、一つのトークンとみなす。(3) (2)の処理を目的の語彙サイズになるまで繰り返す。BPEを用いたtokenizeにより、WMT 15において、BLEUが1.1 pt (En → Ge)、1.3 pt (En → Ru)向上。
Neural Machine Translation of Rare Words with Subword Units
ニューラル機械翻訳で低頻度語や未知語に対応するため、単語より細かい分割単位(Sub-word)によるtokenize手法を提案。具体的にはByte-Pair-Encoding (BPE)を用いてtokenizeする。BPEの概略は次の通りである: (1) 文字レベルの分割で頻度をカウントし、それを初期辞書とする。(2) bigramを取り、頻度が高いものを連結し、一つのトークンとみなす。(3) (2)の処理を目的の語彙サイズになるまで繰り返す。BPEを用いたtokenizeにより、WMT 15において、BLEUが1.1 pt (En → Ge)、1.3 pt (En → Ru)向上。
文献情報