Closed insbread closed 3 years ago
您好,我检查了一下,论文里公式6和7的tanh确实都多了个linear,谢谢指正,之后会纠正过来,一切以代码为准。
非常感谢您的回复。我还有一些小小的疑问,请问您试验的时候是不是也尝试过添加线性层,发现效果较差才没有采用这个方法?还是说最初的想法就是没打算在这两个部分使用线性层,如果是这样的话能方便说一说是什么原因导致您不打算使用线性层呢?
tanh后面的linear我没有加过,只是写论文的时候习惯性得加上了linear。 模型方面是有进行过其他尝试,比如说像lstm那样加上三个门控,或者是在公式6处增加layernorm等,但是都收效甚微。 线性层加不加在我看来不会有什么收益,甚至还可能打乱神经元本来的层次顺序。
谢谢!我也尝试过直接在LSTM上做一个类似interaction的改进,也确实没有带来很好的效果,但您的思路更加深入也更加有新意!
好的,谢谢您对我们论文的认可
@insbread CC: @Coopercoppers 我检查了一下好像论文跟代码里面的是一致的。看下面的图片,红色的是公式6,蓝色的是公式7,请教一下,你们说的多了线性层/或者是没有实现公式6是指的哪个部分?
你好, 我在阅读论文的时候,论文提及会使用公式6将memory做一个线性变换然后得到feature,但是我在阅读代码的时候发现好像没有实现公式6,而是直接将memory作为了最终的feature。请问你们是不是在哪里实现了同样的等价操作呢?谢谢!