Open XA23i opened 7 months ago
非常棒的工作,我比较好奇,纯int量化的优势在于速度,但是好像没有底层kernel的支持,还是以全精度(TVM)的方式去计算的,这样int量化的实际价值没有发挥出来,看论文中的数据实际latency没有较FasterTransformer提升太多。
非常棒的工作,我比较好奇,纯int量化的优势在于速度,但是好像没有底层kernel的支持,还是以全精度(TVM)的方式去计算的,这样int量化的实际价值没有发挥出来,看论文中的数据实际latency没有较FasterTransformer提升太多。