Closed zxbjushuai closed 2 months ago
或者说期望的正确结果应该是多少?
我使用的模型文件是下载下来的本地文件safetensor格式,有没有可能是需要使用其他格式的模型文件比如bin?
according to this issue https://github.com/Aaronhuang-778/BiLLM/issues/14. It is fake quantization. I.e. using fp16 to simulate 1-bit
Thanks
在我使用python3 run.py meta-llama/Llama-2-7b-hf c4 braq --blocksize 128 --salient_metric hessian --device "cuda:0"指令进行量化后,量化后的模型safetensor文件所占空间综合仍然为12.6gb,是否是我保存方式有问题?