关于Embedding - Githubissues

yhcc / BARTABSA

142 stars 28 forks source link

关于Embedding #8

Closed JingliSHI0206 closed 2 years ago

JingliSHI0206 commented 2 years ago

非常感谢公开论文代码！现在有个问题想请教下：对于公式（7），为什么需要再加一次BARTTokenEmbed （5）？我的理解是BARTTokenEmbed 已经是BART Encoder（2）的 input. 这个是因为最后的prediction更好吗？如果不加效果会差很多吗？谢谢！

yhcc commented 2 years ago

这里我忘记我是否做过实验验证不加的效果了。当时的直觉是，由于pretrained的BART Decoder是与Embedding做dot product进行输出的，如果只使用encoder的hidden state可能会和pretrain阶段有点不一致，于是就加上了embedding，但只用embedding无法没有歧义的表示input中的输入位置，所以给它加上了encoder输出的hidden state。

JingliSHI0206 commented 2 years ago

多谢你的解释，我再研究研究论文和代码。