Closed jingyonglin closed 3 years ago
F.softmax(torch.matmul( linear_query, linear_key.transpose(-2, -1) ) / math.sqrt(self.__hidden_dim), dim=-1) 是不是应该这样呢??
@jingyonglin 您好,你说的是对的,我们实验过,影响不大,之前follow的stack-propagation也是这么写的,我们就保持一致进行公平比较了。
@jingyonglin 您好,你说的是对的,我们实验过,影响不大,之前follow的stack-propagation也是这么写的,我们就保持一致进行公平比较了。
嗯, 我现在也正准备开始试跑 stack propagation, 关于这个公式顺序的影响我也没试验过, 我也自己试试呗, 我觉得当然计算上是没问题能正常运行的, 不过我认为这样模型层面的公式改动还是值得记录在paper中的, 提出来这个疑问也是, 如果不仔细看真的就忽略过去了
@jingyonglin 非常谢谢你的意见,更多的交流可以给我发邮件lbqin@ir.hit.edu.cn。或者微信沟通:)
代码错误 softmax before regularization
我现在还是很有疑问哦, 确实没能复现出结果, 有其他关注这个项目的xdm跟我说说怎么复现的呗