Open ehuaa opened 1 year ago
多谢回复
对于1,我其实是想基于PPQ的结构二次开发做LLM的量化,目前的想法是比如将Llama 转成onnx然后送到 ppq中,自定义将FuseAttention等操作变成一个pass封装到ppq的流程里面(从而借助ppq对很多onnx算子的forward实现以及成熟的工程化实现),因为很多的硬件部署现在其实还是对onnx模型支持的比较好。
对于3,想问下大佬你们目前做4bit量化的中间结果保存用的什么格式呢 是类似 https://github.com/onnx/onnx/issues/4192 这种pack的方式么 谢谢 @ZhangZhiPku
多谢回复
对于1,我其实是想基于PPQ的结构二次开发做LLM的量化,目前的想法是比如将Llama 转成onnx然后送到 ppq中,自定义将FuseAttention等操作变成一个pass封装到ppq的流程里面(从而借助ppq对很多onnx算子的forward实现以及成熟的工程化实现),因为很多的硬件部署现在其实还是对onnx模型支持的比较好。
对于3,想问下大佬你们目前做4bit量化的中间结果保存用的什么格式呢 是类似 onnx/onnx#4192 这种pack的方式么 谢谢 @ZhangZhiPku
想问下,基于PPQ的结构二次开发做LLM的量化 这个思路现在测试过可行吗?
大佬好,现在想利用PPQ实现一些大模型量化的方法,有以下几个问题: