Self-Attention和Transformer一节的几个问题

1、图self-attention-gpu和transformer-process无法加载 2、“multi-headed Attention用公式表示就是”之后的公式中“contact”应该是“concat” 3、"下面举例说明该公式的用法“之后的公式里，10000的0次幂写成了10000° 4、“那如果产生跳跃连接，如果有误差，可以从不同路径传到早期的网络层，这样的话误差就会比较明确地传回来”建议改成“那如果使用跳跃连接，当有误差时，可以从不同路径反向传播到靠前的网络层，这样的话误差就会比较明确地传回来” 5、“Encode-Decode注意力层”应该为“Encoder-Decoder注意力层” 6、“worm up”应当为“warm up”，“lr-worm-up”应当为“lr-warm-up” 7、“keas”应当为“keras”

luweiagi / machine-learning-notes

Self-Attention和Transformer一节的几个问题 #3