20-ACL-Hard-Coded Gaussian Attention for Neural Machine Translation

简介

对multi-head self attention下手，试图简化。方法很简单，用no parameter的hard-code gaussian distribution做，跟之前的local attention差不多，只不过mean不用参数学，直接指定好了, e.g. (i-1, i, i+1)似乎mean的设定还有挺大影响，不是简单的i就完事了。方法很简单，没啥说的，主要是实验分析那块做了比较多

有意思的点

单纯优化self-attention的上限并不高，例如把所有self-attention去掉，整体的推断速度也就12%，所以它完全hard-code gaussian在推理速度的上限并不高（必须配合single head CA，但那又是另外一个故事了）
有个LingEval97数据集(EN-DE)，可以用来分析译文中13种语言学现象的错误，以后可以参考看看

论文信息

Author: University of Massachusetts Amherst
Paper
Code (目前还是空的）

总结

想法跟我之前想的"share attention"差不多，只不过做的更绝一点，但是这么搞性能肯定掉，虽然靠iwslt这种小数据集撑，看起来似乎不错，但wmt en-de上还是很明显的，稳定的掉性能，不是很靠谱

wangqiangneu / MT-PaperReading

20-ACL-Hard-Coded Gaussian Attention for Neural Machine Translation #63

简介

有意思的点

论文信息

总结