Open wangqiangneu opened 5 years ago
看了这个论文我有个疑惑,这里说都是基于transformer模型做的实验,那填充完上下文的文档级训练数据,是直接按照concat方法,把四个句子连在一起作为transformer模型的输入输出进行训练吗?因为论文里我没有看到提到其他的上下文敏感的NMT模型。
看了这个论文我有个疑惑,这里说都是基于transformer模型做的实验,那填充完上下文的文档级训练数据,是直接按照concat方法,把四个句子连在一起作为transformer模型的输入输出进行训练吗?因为论文里我没有看到提到其他的上下文敏感的NMT模型。
应该是的哦,看section 4.3里,有提到" Sentences within each example are concatenated to each other, with a reserved token separating each sentence. "
简介
由sentence-level的平行语料扩展到document-level的平行语料方法(所谓document-level实际是4个连续的句子,因为评价BLEU的时候是4个句子连在一起评,参照#6)。实验了几种:
random
: 随便选3个bitext凑成一个fake context的平行数据。可能导致让模型忽略contextcopy
: 对输入句子copy一份,其他两句random,这样能让模型去学习有些context是有帮助的generate context
: 用目标语document-level的monolingual data去训一个encoder-decoder (或者是LM):根据第4句话,预测前3句话。有了context-target数据,再back-translate得到对应的context-source论文信息
总结
copy
的方法实施很简单,可以利用大规模的sentence-level bitextchellenge set
,如#6里提到的