li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4
MIT License
2.84k stars 327 forks source link

在启用 cuBLAS 之后,等权重数据加载到显存后,最好能释放内存里的权重数据 #275

Open dogvane opened 4 months ago

dogvane commented 4 months ago

看了以下代码,是 Pipeline 类里的 std::unique_ptr mapped_file; 设置到成员变量后,会一直持有模型权重文件。 在CPU模式下,这样做没啥问题,但用gpu做后台运行的,还是很希望能把这部分资源给释放了。

li-plus commented 4 months ago

感谢提醒,这部分确实可以优化下