Open atnlp opened 6 years ago
看数据集,这次的数据集文本非常长,用kmax_pooling比只取最后一个时间步效果好不少
另外用attention代替kmax_pooking的效果也不错
感谢!那我都尝试对比一下。
对于LSTM中Attention的代码有些不太理解,GRU中Attention的处理方式和可以查阅到的一些方法类似,先定义W再通过tanh函数和softmax这个套路,LSTM中的这种完全依赖于out和h_n的Attention机制是在LSTM中约定成俗的方法吗?
您当时有没有尝试过在LSTM中也使用GRU中定义的Attention方法?
请问一下关于rnn中kmax_pooling的用法目前用的多吗,如果不进行这步操作,直接在out = self.bilstm(embed)[0].permute(1, 2, 0)这一步中直接取最后一个时间步?