yhcc / BARTABSA

142 stars 28 forks source link

关于Embedding #8

Closed JingliSHI0206 closed 2 years ago

JingliSHI0206 commented 2 years ago

非常感谢公开论文代码! 现在有个问题想请教下: 对于公式 (7), 为什么需要再加一次BARTTokenEmbed (5)?我的理解是BARTTokenEmbed 已经是BART Encoder(2)的 input. 这个是因为最后的prediction更好吗?如果不加效果会差很多吗?谢谢!

yhcc commented 2 years ago

这里我忘记我是否做过实验验证不加的效果了。当时的直觉是,由于pretrained的BART Decoder是与Embedding做dot product进行输出的,如果只使用encoder的hidden state可能会和pretrain阶段有点不一致,于是就加上了embedding,但只用embedding无法没有歧义的表示input中的输入位置,所以给它加上了encoder输出的hidden state。

JingliSHI0206 commented 2 years ago

多谢你的解释,我再研究研究论文和代码。