Closed TylunasLi closed 7 months ago
针对单条推理decode阶段的GPU GEMV算子优化 a. 在CUDA_NO_TENSOR_CORE编译选项下,fp16/int8 修改为向量化访存,获得一定速度提升; b. 对全部架构int4的GEMV开启向量化访存。
CUDA_NO_TENSOR_CORE
针对int8/int4批量推理的反量化操作 a. 在CUDA_NO_TENSOR_CORE编译选项下,修改为向量化访存。
单条推理优化后结果,采用benchmark测试:
修改内容
针对单条推理decode阶段的GPU GEMV算子优化 a. 在
CUDA_NO_TENSOR_CORE
编译选项下,fp16/int8 修改为向量化访存,获得一定速度提升; b. 对全部架构int4的GEMV开启向量化访存。针对int8/int4批量推理的反量化操作 a. 在
CUDA_NO_TENSOR_CORE
编译选项下,修改为向量化访存。测试情况
单条推理优化后结果,采用benchmark测试: