Open lockmatrix opened 1 year ago
例如: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat-4bits
目前 torch2flm 内部还是将已经量化的模型转换为float16,再按标准方式进行量化的。速度很慢 这其中还容易遇到除0错误。
torch2flm
希望能够直接适配转换这种已经按照量化发布的模型,快速导入,并且自动设置 c_min c_max等。
例如: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat-4bits
目前
torch2flm
内部还是将已经量化的模型转换为float16,再按标准方式进行量化的。速度很慢 这其中还容易遇到除0错误。希望能够直接适配转换这种已经按照量化发布的模型,快速导入,并且自动设置 c_min c_max等。