Open saggitarxm opened 1 year ago
你好,看了您的论文和代码,word_embedding, q,k,v等weight采用了TWN的方式进行量化,但是TWN的量化方法其实是对weight的取值进行量化,weight的size还是32bit,并不是2bit,保存的模型size和原始模型是一样大的,推理的时间也不能降低,请问是哪里理解错了呢?
你好,看了您的论文和代码,word_embedding, q,k,v等weight采用了TWN的方式进行量化,但是TWN的量化方法其实是对weight的取值进行量化,weight的size还是32bit,并不是2bit,保存的模型size和原始模型是一样大的,推理的时间也不能降低,请问是哪里理解错了呢?