Open wangqiangneu opened 4 years ago
对multi-head self attention下手,试图简化。方法很简单,用no parameter的hard-code gaussian distribution做,跟之前的local attention差不多,只不过mean不用参数学,直接指定好了, e.g. (i-1, i, i+1)似乎mean的设定还有挺大影响,不是简单的i就完事了。方法很简单,没啥说的,主要是实验分析那块做了比较多
multi-head self attention
no parameter
local attention
mean
LingEval97
简介
对
multi-head self attention
下手,试图简化。方法很简单,用no parameter
的hard-code gaussian distribution做,跟之前的local attention
差不多,只不过mean
不用参数学,直接指定好了, e.g. (i-1, i, i+1)似乎mean
的设定还有挺大影响,不是简单的i就完事了。方法很简单,没啥说的,主要是实验分析那块做了比较多有意思的点
LingEval97
数据集(EN-DE),可以用来分析译文中13种语言学现象的错误,以后可以参考看看论文信息
总结