Closed zjiehang closed 5 years ago
你好,观察到代码里将pretrained embedding和zero embedding进行了加和,请问这样的操作和不用zero embedding是不是做的一件事? 由于zero embedding可以看作0均值0方差,在embedding dropout中在计算scale的时候将word level乘以2是否还有必要? 谢谢。
第二个embedding是trainable的,后面会进行学习
你好,观察到代码里将pretrained embedding和zero embedding进行了加和,请问这样的操作和不用zero embedding是不是做的一件事? 由于zero embedding可以看作0均值0方差,在embedding dropout中在计算scale的时候将word level乘以2是否还有必要? 谢谢。