Open utterances-bot opened 2 months ago
def forward(self, x, sublayer):
# 有些实现是先计算`norm`再计算`sublayer`,比如论文中的实现。
# 这两种计算计算的先后顺序有些细微差别,本文按照先`norm`再`sublayer`的模式执行。
return x + self.dropout(sublayer(self.norm(x)))
这里的写法感觉和论文里的流程不太对,论文里应该是先Add再LayerNormalzation
理解Transformer模型1:编写Transformer - zishi的技术笔记
尝试通过手写transformer来理解该算法
https://qinzishi.tech/2024/01/06/transformer-from-scratch-1/