fastnlp / TENER

Codes for "TENER: Adapting Transformer Encoder for Named Entity Recognition"
373 stars 55 forks source link

关于PE向量的问题,为什么要shift?以及为什么要transpose_shift?是为了计算R中的t-j吗 #21

Closed LLLLLLoki closed 4 years ago

LLLLLLoki commented 4 years ago

如题

yhcc commented 4 years ago

shift是为了节省显存,可以参考 Music Transformer . tranpose_shift是tener论文里没有写的,我实践中发现这个对结果有positive的影响,所以就加上了,这一项实际上想达到的目的是让key具备relative的感知能力。

LLLLLLoki commented 4 years ago

谢谢回答