Open wangqiangneu opened 5 years ago
用4-bit做量化。第一位表示正负。使用的方法包括:
正负
logarithmic with base 2
linear
scaling factor
EM
bias
matmul
简介
用4-bit做量化。第一位表示
正负
。使用的方法包括:logarithmic with base 2
(而不是linear
)scaling factor
,用EM
估计(其他常见的scaling factor可以选一个tensor的max value)bias
matmul
的输入做量化,BLEU掉的比较多论文信息
总结