Open wangqiangneu opened 4 years ago
对positional embedding的改进。动机是,transformer里直接将word embedding + pos embedding,两者是独立的训练的(pos embed可能用三角函数的形式,固定的),但只能得到绝对位置信息,pos embedding没有约束,无法感知到相对位置。然后提出词向量应该将position作为一个变量,这样位于同一个词而言,该词在不同位置的表示会比较平滑。把这种方式的词向量表示为$g_j(pos)$。并且要求这个词向量满足两个性质,这里不细说了。实数可以看作是复数的虚部是0时候的特例,最终用的复数形式表示:$g_j(pos)=r_je^(i(w_jpos+\theta))$,实部是词向量,虚部是位置向量,$r_j$,$w_j$和$\theta$都是要学的参数。可以理解成是 词向量 element-wise 乘 位置向量,$w_j$控制了一个词j对位置的敏感程度,越大则词向量变化的越距离,也就是对位置越敏感。
word embedding
pos embedding
j
简介
对positional embedding的改进。动机是,transformer里直接将
word embedding
+pos embedding
,两者是独立的训练的(pos embed可能用三角函数的形式,固定的),但只能得到绝对位置信息,pos embedding没有约束,无法感知到相对位置。然后提出词向量应该将position作为一个变量,这样位于同一个词而言,该词在不同位置的表示会比较平滑。把这种方式的词向量表示为$g_j(pos)$。并且要求这个词向量满足两个性质,这里不细说了。实数可以看作是复数的虚部是0时候的特例,最终用的复数形式表示:$g_j(pos)=r_je^(i(w_jpos+\theta))$,实部是词向量,虚部是位置向量,$r_j$,$w_j$和$\theta$都是要学的参数。可以理解成是 词向量 element-wise 乘 位置向量,$w_j$控制了一个词j
对位置的敏感程度,越大则词向量变化的越距离,也就是对位置越敏感。论文信息
总结