用于T5或BART的一些疑问

THUDM / P-tuning-v2

An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks

Apache License 2.0

1.96k stars 198 forks source link

Closed cjj-sunshine closed 2 years ago

cjj-sunshine commented 2 years ago

您好，请问将这种方法用于T5或者BART模型时，Encoder和Decoder部分都需要添加past_key_values的初始化吗，添加了past_key_values后，在求attention score时，需要对T5或者BART模型源码的forward部分进行修改吗？希望能尽快得到您的回复！

Xiao9905 commented 2 years ago

@cjj-sunshine Hi,

理论上只需要在encoder部分添加
如果使用huggingface transformers的话，应该在其forward函数中提供了past_key_values的argument，所以不需要修改forward。不过由于我们也未尝试过在T5和BART上实现，具体情况可能要参考huggingface源码。

cjj-sunshine commented 2 years ago

好的，非常感谢您的回复！