jkwang93 / MCMG

MCMG_V1
MIT License
69 stars 25 forks source link

欢迎讨论 #13

Open ghost opened 9 months ago

ghost commented 9 months ago

image 调试他的代码时候,tgt输入就是[128, max_length], 做embeding的时候,Embedding的输入形状B×M,B是batch size,M是序列的长度,输出的形状是B×M×embedding_dim;但是他先进行了转置再做embedding, 为啥?

是代码写错了,还是怎么说?文章中我没有看到这一步有写。这文章中结果我好像也....

ghost commented 8 months ago

这文章结果能复现出来嘛???