Closed zhihuikaicheng closed 6 years ago
补充一下,我之所以会问这个问题,是因为我目前遇到了很尴尬的一幕。我把dropout放在h层之后(h层对应原论文的h层),效果就很差。但是把dropout放在g层之前,效果就好了许多(虽然我目前只能复现到86%的rank1.。) 对于dropout对整个训练的影响,我的理解是防止过拟合。但为什么会出现这么大的偏差呢?
我没有用到dropout。dropout常用的地方是分类器的输入,所以我觉得在每个h vector后面加应该可以。dropout的大小也会影响性能,导致性能下降也是有可能的。
我是用TensorFlow的,所以我不太清楚pytorch是否内含了dropout。在看你的pcb model的时候我似乎并没有看到dropout?