Open chenjjcccc opened 8 months ago
作者您好,我阅读了GeoTr结构框架,发现每一层encoder和decoder都用了两层的MultiheadAttention,论文中说encoder是标准的transformer框架中的encoder,但是transformer中的encoder只用了一层的MultiheadAttention,decoder用了两层。因为我最近在做论文复现的工作,想咨询一下,期待回复!
以我release的代码为准
可以加个微信交流下心得吗? 我最近也在复现该论文~
@BigTree-git @chenjjcccc could you please share your code to reproduce this paper?
I also wants to test on my dataset.
作者您好,我阅读了GeoTr结构框架,发现每一层encoder和decoder都用了两层的MultiheadAttention,论文中说encoder是标准的transformer框架中的encoder,但是transformer中的encoder只用了一层的MultiheadAttention,decoder用了两层。因为我最近在做论文复现的工作,想咨询一下,期待回复!