请问如何正确推理使用cuda导出的fp16 onnx chatglm2-6b-32k模型？

luchangli03 / onnxsim_large_model

simplify >2GB large onnx model

MIT License

42 stars 3 forks source link

Open yuunnn-w opened 1 year ago

yuunnn-w commented 1 year ago

我看32k和原生的模型结构基本是一致的，尝试了一下导出，没有问题，但是无法正确推理，推理到onnx计算部分就直接Killed退出了，请问这是什么原因？请问作者可以支持一下32k的推理吗？我这边想试试把模型导出为rknn架构。