Phrase-Based & Neural Unsupervised Machine Translation

short summary

Neural Machine Translation (NMT)、Phrase-based Statistical Machine Translation (PBSMT)それぞれについて、monolongualのコーパスでの教師なしで学習する手法を提案。WMT'14 English-FrenchとWMT'16 German-EnglishでBLEU28.1, 25.2を記録し、教師なし学習の盆脈では11 point以上更新しSOTA。一昔前の教師ありに匹敵。

※参考文献

PBSMT

先行研究における教師なし機械翻訳の3原則

Initialization
- ペアで直接学習して行くことができないので、いい初期状態が必要
Language Model
- 流暢な言語を出力するために、言語モデルによる補正が必要
Iterative Back-translation
- 学習を進めるために、翻訳したものを再翻訳して、元の文との差分を取るという枠組みが必要

unsupervised NMT

基本的には、encoder-decoderモデルを

言語モデルとして学習させた後
翻訳モデルとして学習させる。

Initialization

sourceとtargetそれぞれのmonolingualコーパスに対して、一緒にbyte-pair encoding (BPE) をかける。 BPEの、vocablary sizeを減らせる、未知語をなくせるという利点に加え、一緒にBPEにかけることで、2言語間で。BPE toeknを共有する（この時、英語とフランス語などアルファベットで構成されている言語同士だと大部分のtokenを共有できるが、日英とかだと、共有できるtokenがだいぶ限られてしまう）。手順

コーパスをくっつける
BPEをかける
くっつけたコーパスに対してword2vec的なもので表現学習

Language Model

denoising autoencoderで、ランダムに単語を落としたり、語順を変えたりしたものから、元の文の復元を学習する。この過程により、encoderはnoisyな文からもうまく潜在表現を抽出するようになり、decoderは綺麗な文を出力するように学習される。

ロス

Iterative Back-translation

一度翻訳したものを、もう一度逆方向に翻訳し、元の文と比較して学習する。

ただこの操作を行うと、翻訳したnoisyな文から、さらに翻訳して元に戻すのでうまくいかないが、上記のように、encoder, decoderは言語モデルとしてノイズを除去するように学習されているので、decoderはできるだけ綺麗な文を生成し、encoderは入力がnosiyだったとしても文意を捉えた潜在表現を抽出することが期待できる。

ロス

sharing latent representation

これら3つは、先行研究でも行われていたが、これらだけではうまくいかない。 → 言語Aに対するencoderが抽出する潜在表現と、言語Bに対するencoderが抽出する潜在表現の分布、空間が違うと、例えば言語Aに対するdecoderは、言語Bに対するencoderからの表現の分布に対しては、ノイズを除去するようには学習していないため、結局言語モデルによるノイズ除去がうまく働かない。

→ ２言語からのencoderの出力の分布が近いものになる必要がある。先行研究でも、adversarial lossの導入などにより近づけようとしたが、あまりうまくいかなかった。

そこで、この論文では、２言語間でencoder, decoderのパラメータを共有することで、分布を近づけ、encoderが言語によらない中間表現を抽出できるように試みた。

特にencoderの共有は必須。