dvlab-research / LongLoRA

Code and documents of LongLoRA and LongAlpaca (ICLR 2024 Oral)
http://arxiv.org/abs/2309.12307
Apache License 2.0
2.62k stars 274 forks source link

论文中的evaluate结果,推理时用的attention是shifted sparse attention?还是full attention? #170

Open zhangxiann opened 9 months ago

zhangxiann commented 9 months ago

作者您好!

论文中说到:在finetune 时用shifted sparse attention进行训练,在推理的时候可以用full attention。

所以在推理的时候,既可以用shifted sparse attention,也可以用full attention。

想问一下:论文中的实验结果,推理时用的attention是shifted sparse attention?还是full attention?在推理时使用两种不同attention,效果会有差别吗?如果效果有差别的话,差别有多大?论文中貌似没提到这一点)