Closed wujm424606 closed 2 months ago
看看是不是有个layer选项默认我记得是40,好像是把模型的多少加载到显存的 你看看改成100可不可以
看看是不是有个layer选项默认我记得是40,好像是把模型的多少加载到显存的 你看看改成100可不可以
-1是加载全部,会使用到gpu的,但依然会占用内存,这个问题主要依赖上游的llama.cpp,机子好可以等我后续放出更多llama.cpp选项去控制
我也是一样 Prompt executed in 132.20 秒 走一次2-3分钟 一开始CPU占用100% 后面才会调用GPU
检查llama-cpp-python版本和CUDA是否对上,重新手动安装正确版本的llama-cpp-python后再试试看 https://github.com/abetlen/llama-cpp-python/releases
当运行这个提示词优化生成的时候不知道为什么每次都会走cpu,去占用内存而不是gpu的显存,我的显卡是笔记本显卡4090的16g的