Open qiushigui opened 4 years ago
论文分析了transformer中注意力机制对长短距离依赖关系捕获过程中的计算成本进行了分析:计算成本随着输入的长度N和特征维度D快速递增。在算力有限的情况下,模型的部署会被大N数据压垮,通过可视化Bert中注意力Weights可得到两个特性:离散、对角。离散对应长距离关系,对角对应局部依赖。为了缩减计算成本,对原有的transformer进行针对性的改造,提出长短距离的注意力结构LSRA——二分支结构,一边的attention负责长距离,另一边的Conv负责局部构成全局关系。
简单通过对特征维度D的缩减就减少了注意力机制对局部关系的关注缺少理论论证
lite transformer在算力和存储资源限制下,效果在机器翻译任务、文本摘要任务上总体上能和常规transformer相比,甚至在个别任务上也有提升。配合剪枝和量化技术,模型可以压缩到原来的1/4。
Author:Zhanghao Wu&Zhijian Liu paper code
简介
论文分析了transformer中注意力机制对长短距离依赖关系捕获过程中的计算成本进行了分析:计算成本随着输入的长度N和特征维度D快速递增。在算力有限的情况下,模型的部署会被大N数据压垮,通过可视化Bert中注意力Weights可得到两个特性:离散、对角。离散对应长距离关系,对角对应局部依赖。为了缩减计算成本,对原有的transformer进行针对性的改造,提出长短距离的注意力结构LSRA——二分支结构,一边的attention负责长距离,另一边的Conv负责局部构成全局关系。
贡献
不足
简单通过对特征维度D的缩减就减少了注意力机制对局部关系的关注缺少理论论证
总结
lite transformer在算力和存储资源限制下,效果在机器翻译任务、文本摘要任务上总体上能和常规transformer相比,甚至在个别任务上也有提升。配合剪枝和量化技术,模型可以压缩到原来的1/4。
论文信息
Author:Zhanghao Wu&Zhijian Liu paper code