Closed gaoxc315 closed 1 year ago
感谢张老师的书籍,收益颇丰。 第18页最后的代码段少了return x; 第20页的EncoderLayer中初始化的Norm应为19页定义的NormLayer; 第20页的EncoderLayer中的顺序存在问题:应该是先进行多头注意力机制->残差连接->归一化层。后面的decoder存在同样的问题。
感谢 修改中
感谢张老师的书籍,收益颇丰。 第18页最后的代码段少了return x; 第20页的EncoderLayer中初始化的Norm应为19页定义的NormLayer; 第20页的EncoderLayer中的顺序存在问题:应该是先进行多头注意力机制->残差连接->归一化层。后面的decoder存在同样的问题。