Open zhangxiann opened 9 months ago
作者您好!
论文中说到:在finetune 时用shifted sparse attention进行训练,在推理的时候可以用full attention。
在finetune 时用shifted sparse attention进行训练,在推理的时候可以用full attention。
所以在推理的时候,既可以用shifted sparse attention,也可以用full attention。
想问一下:论文中的实验结果,推理时用的attention是shifted sparse attention?还是full attention?在推理时使用两种不同attention,效果会有差别吗?如果效果有差别的话,差别有多大?论文中貌似没提到这一点)
作者您好!
论文中说到:
在finetune 时用shifted sparse attention进行训练,在推理的时候可以用full attention。
所以在推理的时候,既可以用shifted sparse attention,也可以用full attention。
想问一下:论文中的实验结果,推理时用的attention是shifted sparse attention?还是full attention?在推理时使用两种不同attention,效果会有差别吗?如果效果有差别的话,差别有多大?论文中貌似没提到这一点)