Open ghost opened 9 months ago
调试他的代码时候,tgt输入就是[128, max_length], 做embeding的时候,Embedding的输入形状B×M,B是batch size,M是序列的长度,输出的形状是B×M×embedding_dim;但是他先进行了转置再做embedding, 为啥?
是代码写错了,还是怎么说?文章中我没有看到这一步有写。这文章中结果我好像也....
这文章结果能复现出来嘛???
调试他的代码时候,tgt输入就是[128, max_length], 做embeding的时候,Embedding的输入形状B×M,B是batch size,M是序列的长度,输出的形状是B×M×embedding_dim;但是他先进行了转置再做embedding, 为啥?
是代码写错了,还是怎么说?文章中我没有看到这一步有写。这文章中结果我好像也....