Open wangqiangneu opened 4 years ago
pre-training做带pivot的zero-shot的NMT(不是完全unsupervised NMT,src-pivot和pivot-tgt有大量bitext)。pipeline还是挺长的,先用src-pivot的monolingual or bilingual pretrain (过程是,先用MLM训,再用TLM/文章提出的改进方法训)。训完之后用这个universial encoder去initpivot-tgt的模型,这个模型训好后就可以直接翻译src-tgt了。方法本身比较简单,就是在TLM的基础上,TLM是随机的mask,他用了外部对齐工具(hard)或者加一个cross attention layer(soft)去显式的让对齐的词预测。
pre-training
pivot
src-pivot
universial encoder
pivot-tgt
src-tgt
简介
pre-training
做带pivot
的zero-shot的NMT(不是完全unsupervised NMT,src-pivot和pivot-tgt有大量bitext)。pipeline还是挺长的,先用src-pivot
的monolingual or bilingual pretrain (过程是,先用MLM训,再用TLM/文章提出的改进方法训)。训完之后用这个universial encoder
去initpivot-tgt
的模型,这个模型训好后就可以直接翻译src-tgt
了。方法本身比较简单,就是在TLM的基础上,TLM是随机的mask,他用了外部对齐工具(hard)或者加一个cross attention layer(soft)去显式的让对齐的词预测。pivot-tgt
的模型后,需要freeze一些层防止性能退化。推荐前4层论文信息
总结
src-pivot
,第二阶段只拿它做init,翻译方向是pivot-tgt
居然可以在训完之后直接就翻译src-tgt
还效果不错。。。