在启用 cuBLAS 之后，等权重数据加载到显存后，最好能释放内存里的权重数据

li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4

MIT License

2.84k stars 327 forks source link

Open dogvane opened 4 months ago

dogvane commented 4 months ago

看了以下代码，是 Pipeline 类里的 std::unique_ptr mapped_file; 设置到成员变量后，会一直持有模型权重文件。在CPU模式下，这样做没啥问题，但用gpu做后台运行的，还是很希望能把这部分资源给释放了。

li-plus commented 4 months ago

感谢提醒，这部分确实可以优化下