luchangli03 / onnxsim_large_model

simplify >2GB large onnx model
MIT License
42 stars 3 forks source link

请问如何正确推理使用cuda导出的fp16 onnx chatglm2-6b-32k模型? #2

Open yuunnn-w opened 1 year ago

yuunnn-w commented 1 year ago

我看32k和原生的模型结构基本是一致的,尝试了一下导出,没有问题,但是无法正确推理,推理到onnx计算部分就直接Killed退出了,请问这是什么原因?请问作者可以支持一下32k的推理吗?我这边想试试把模型导出为rknn架构。