Closed SCU-JJkinging closed 2 years ago
Hi @SCU-JJkinging ,
是维度不一致的问题。原始实验是用的albert-xxlarge-v2,hidden size应该是1024;bert-base-cased是768。由于P-tuning的做法是把prompt位置的input embedding换成external trainable embedding,所以需要保持维度一致。
您好,请问如果用albert-xxlarge-v2的话,是需要把 prompt 的 embedding dim 也设置和albert一样吗?即1024
@SCU-JJkinging ,
是的。我们的代码应当是默认使用的1024。
好的感谢! 但是您代码中默认使用的好像是128
还有个问题就是:我发现在分别使用用bert-base-cased 和albert-xxlarge-v2时,在RTE任务上的 acc 相差较大,能达到20%。所以我感觉预训练模型的选择很重要,是与预训练时使用的语料有关系吗?那这种效果的好坏岂不是主要取决于预训练模型的“好坏”呢?谢谢!
@SCU-JJkinging ,
好的,感谢您的解答!
直接把项目git到本地跑,只把预训练模型换成了bert-base-cased,就报这个错,请问是什么原因呢?
这两个维度不一致怎么复制呢?报错就是这一步操作