THUDM / P-tuning-v2

An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks
Apache License 2.0
1.96k stars 198 forks source link

用于T5或BART的一些疑问 #32

Closed cjj-sunshine closed 2 years ago

cjj-sunshine commented 2 years ago

您好,请问将这种方法用于T5或者BART模型时,Encoder和Decoder部分都需要添加past_key_values的初始化吗,添加了past_key_values后,在求attention score时,需要对T5或者BART模型源码的forward部分进行修改吗?希望能尽快得到您的回复!

Xiao9905 commented 2 years ago

@cjj-sunshine Hi,

  1. 理论上只需要在encoder部分添加
  2. 如果使用huggingface transformers的话,应该在其forward函数中提供了past_key_values的argument,所以不需要修改forward。不过由于我们也未尝试过在T5和BART上实现,具体情况可能要参考huggingface源码。
cjj-sunshine commented 2 years ago

好的,非常感谢您的回复!