Open wangqiangneu opened 5 years ago
评价multilingual NMT的encoder作为pre-trained的context vector exactor对下游任务的作用。multilingual NMT是用google zero-shot方法,只训练一个transformer-big,在102个语种上训练的。总数据集有20 billion,但是做了sampling,似乎并没有说最后到底用了多少训练的
context vector exactor
102
20 billion
数据采样
temperature-based
T=5
有意思的结果
<To-Target-Lang>
简介
评价multilingual NMT的encoder作为pre-trained的
context vector exactor
对下游任务的作用。multilingual NMT是用google zero-shot方法,只训练一个transformer-big,在102
个语种上训练的。总数据集有20 billion
,但是做了sampling,似乎并没有说最后到底用了多少训练的数据采样
temperature-based
方法,T=5
(包括学vocabulary和training set)有意思的结果
<To-Target-Lang>
,但是finetune的时候,没有使用这个标签(因为finetune只涉及单语,没法填目标语的lang);后来发现如果是without 这个特殊标签预训练,对下游任务的效果会更好论文信息
总结