zlotus / comment

博客utterances评论
0 stars 0 forks source link

2024/01/06/transformer-from-scratch-1/ #2

Open utterances-bot opened 2 months ago

utterances-bot commented 2 months ago

理解Transformer模型1:编写Transformer - zishi的技术笔记

尝试通过手写transformer来理解该算法

https://qinzishi.tech/2024/01/06/transformer-from-scratch-1/

Maxbay1017 commented 2 months ago
def forward(self, x, sublayer):
    # 有些实现是先计算`norm`再计算`sublayer`,比如论文中的实现。
    # 这两种计算计算的先后顺序有些细微差别,本文按照先`norm`再`sublayer`的模式执行。
    return x + self.dropout(sublayer(self.norm(x)))   
这里的写法感觉和论文里的流程不太对,论文里应该是先Add再LayerNormalzation