您好，关于attention的一些问题？

不好意思，看到的比较晚。 1）报错估计就是维度没有对上吧。 2）attention的计算方式就是论问题里的方法啊。 3）vanilla模型是可以加上batch的。但是另外两个模型，加上batch的效果不是很好。因为pytorch是一个张量运算库，在构成一个大张量的时候要padding许多0。而且如果仅仅是在一句话最后padding0还好（vanilla模型就是在最后padding0），这两个模型是要在句子中间padding0。所以我就没有push上加batch的代码。所以我这里的代码在这两个模型上只有batch-size=1。 4）解决batch-size>0的方法，可以按照batch=1来做，只是在loss累加就好了。就是运算速度不提升，来实现加batch。 5）很不好意思，忙完会维护一下。现在代码太乱了，也没有写readme。