有关论文中公式6和源代码的一些疑惑

Coopercoppers / PFN

EMNLP 2021 - A Partition Filter Network for Joint Entity and Relation Extraction

MIT License

171 stars 20 forks source link

Closed insbread closed 3 years ago

insbread commented 3 years ago

你好，我在阅读论文的时候，论文提及会使用公式6将memory做一个线性变换然后得到feature，但是我在阅读代码的时候发现好像没有实现公式6，而是直接将memory作为了最终的feature。请问你们是不是在哪里实现了同样的等价操作呢？谢谢！

Coopercoppers commented 3 years ago

您好，我检查了一下，论文里公式6和7的tanh确实都多了个linear，谢谢指正，之后会纠正过来，一切以代码为准。

insbread commented 3 years ago

非常感谢您的回复。我还有一些小小的疑问，请问您试验的时候是不是也尝试过添加线性层，发现效果较差才没有采用这个方法？还是说最初的想法就是没打算在这两个部分使用线性层，如果是这样的话能方便说一说是什么原因导致您不打算使用线性层呢？

Coopercoppers commented 3 years ago

tanh后面的linear我没有加过，只是写论文的时候习惯性得加上了linear。模型方面是有进行过其他尝试，比如说像lstm那样加上三个门控，或者是在公式6处增加layernorm等，但是都收效甚微。线性层加不加在我看来不会有什么收益，甚至还可能打乱神经元本来的层次顺序。

insbread commented 3 years ago

谢谢！我也尝试过直接在LSTM上做一个类似interaction的改进，也确实没有带来很好的效果，但您的思路更加深入也更加有新意！

Coopercoppers commented 3 years ago

好的，谢谢您对我们论文的认可

WangYao-GoGoGo commented 1 year ago

@insbread CC: @Coopercoppers 我检查了一下好像论文跟代码里面的是一致的。看下面的图片，红色的是公式6，蓝色的是公式7，请教一下，你们说的多了线性层/或者是没有实现公式6是指的哪个部分？