Open QJShan opened 1 year ago
1.为何transformer没有decoder部分 2 这里貌似有点问题。
是的,这个transformer不是很标准,这边应该是四维[batch_size, dim_head, -1, d_k],而且一般view不会将batch的维度进行变化的。。。emmmm
有些地方view使用的也有点问题啊,作者好像没太弄清楚view和transpose两个的区别。。。
1.为何transformer没有decoder部分 2 这里貌似有点问题。