Closed zhulinJulia24 closed 4 months ago
和你一样的开发环境,我能运行但是耗时长,20秒处理一条。
和你一样的开发环境,我能运行但是耗时长,20秒处理一条。
@wanghanyang123 我这边能持续重现,不过我看了下auto_gptq的问题应该是他们的bug https://github.com/AutoGPTQ/AutoGPTQ/issues/552 我这边的auto_gptq是最新的0.7.0版本
我把auto_gptq降级到0.6.0,BaseGPTQForCausalLM的报错解决了 但readme里quant_model is not initialized的问题应该还在?
我把auto_gptq降级到0.6.0,BaseGPTQForCausalLM的报错解决了 但readme里quant_model is not initialized的问题应该还在?
已经pr修复了
那你推理时长是多少?
那你推理时长是多少?
没有统计 有发现不同transformers版本耗时不同,试一试更新到最新版本呢
https://huggingface.co/internlm/internlm-xcomposer2-7b-4bit
run the code in readme, find the following issues: