Closed BenRood8165290 closed 1 year ago
发现V100-32G通过vllm运行Baichuan2 实质上只能支持到大约 2280 长度context_window(或者是汉字的token占用较高),在streamlit-demo/streamlit_gallery/components/chat/streamlit_app.py 里面将发到后端的history + prompt + max_tokens 总数限制到2280左右基本解决(去掉更早的history),按说应该在server.py服务端限制的,但是没找到办法。
请问下如何清除 kv cache?我用stream跑,kv cache一直新增,直到显存爆了
请问下如何清除 kv cache?我用stream跑,kv cache一直新增,直到显存爆了
同问
提交前必须检查以下项目 | The following items must be checked before submission
问题类型 | Type of problem
模型推理和部署 | Model inference and deployment
操作系统 | Operating system
Linux
详细描述问题 | Detailed description of the problem
Baichuan2模型(基于Base使用LLaMA-Efficient-Tuning项目微调),用vllm方式加载推理。 硬件V100-32G,Cuda 11.7,对话正常。但是持续对话到某个阶段就会卡死,查看日志发现 GPU KV cache usage 达到100%就卡死。期间如果清除history,GPU KV Cache会下降。感觉是最大context超过了导致问题,这个有地方配置吗?
Dependencies
运行日志或截图 | Runtime logs or screenshots
第一次
第二次,中间清除history GPU KV Cache会变小