论文中的evaluate结果，推理时用的attention是shifted sparse attention？还是full attention？

作者您好！

论文中说到：在finetune 时用shifted sparse attention进行训练，在推理的时候可以用full attention。

所以在推理的时候，既可以用shifted sparse attention，也可以用full attention。

想问一下：论文中的实验结果，推理时用的attention是shifted sparse attention？还是full attention？在推理时使用两种不同attention，效果会有差别吗？如果效果有差别的话，差别有多大？论文中貌似没提到这一点）

dvlab-research / LongLoRA