19-Arxiv-Fill in the Blanks: Imputing Missing Sentences for Larger-Context Neural Machine Translation - Githubissues

wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.

36 stars 2 forks source link

19-Arxiv-Fill in the Blanks: Imputing Missing Sentences for Larger-Context Neural Machine Translation #27

Open wangqiangneu opened 5 years ago

wangqiangneu commented 5 years ago

简介

由sentence-level的平行语料扩展到document-level的平行语料方法（所谓document-level实际是4个连续的句子，因为评价BLEU的时候是4个句子连在一起评，参照#6）。实验了几种:

random: 随便选3个bitext凑成一个fake context的平行数据。可能导致让模型忽略context
copy: 对输入句子copy一份，其他两句random，这样能让模型去学习有些context是有帮助的
generate context: 用目标语document-level的monolingual data去训一个encoder-decoder (或者是LM)：根据第4句话，预测前3句话。有了context-target数据，再back-translate得到对应的context-source

论文信息

Author: Google
Paper

总结

这个是single-stage的document-level NMT方法，#6是two-stage的方法
copy的方法实施很简单，可以利用大规模的sentence-level bitext
对于document-level NMT，BLEU值可能比的不显著，考虑chellenge set，如#6里提到的

nomadlx commented 5 years ago

看了这个论文我有个疑惑，这里说都是基于transformer模型做的实验，那填充完上下文的文档级训练数据，是直接按照concat方法，把四个句子连在一起作为transformer模型的输入输出进行训练吗？因为论文里我没有看到提到其他的上下文敏感的NMT模型。

wangqiangneu commented 5 years ago

看了这个论文我有个疑惑，这里说都是基于transformer模型做的实验，那填充完上下文的文档级训练数据，是直接按照concat方法，把四个句子连在一起作为transformer模型的输入输出进行训练吗？因为论文里我没有看到提到其他的上下文敏感的NMT模型。

应该是的哦，看section 4.3里，有提到" Sentences within each example are concatenated to each other, with a reserved token separating each sentence. "