Closed YanyuanAIMR closed 6 days ago
@zRzRzRzRzRzRzR 今天把temperature去掉后,重新运行程序,发现也遇到了大模型长时间不反应的问题,如下图所示:
gpu在这个状态超过了20分钟了,然后这次测试的文本长度为3万字
30K长度吗,你这个是分到两张卡运行了吧,那非常非常慢,basic demo 中readme有提到首响应的时间,由于切了模型,这个过程通常很慢,但是超过20分钟实在是有点久了,我的建议是长文本都是用vLLM的底座进行推理,然后先测试10K的长度是否正常,在慢慢往上加,我没有遇到这个问题,所以我只能根据经验给出这个建议
@zRzRzRzRzRzRzR 我这个是放到一张卡,然后两张卡确实很慢; 再请教一个问题,就是用vLLM的时候,发现还没有启动模型,VLLM就占满了,比如我的显存是40G,加载完成就到了37.5G 的样子,因为我们的需求是长文本,所以不能支持太长的文本长度了,无论切多少张卡显存的占用都是这个程度,请问您知道怎么设置vllm降低这个显存的占用吗
这个是很正常的啊 vLLM默认占用你90%的显存尽管你用不到,你改这个就好了
System Info / 系統信息
cuda 12.0 transformers 4.41.2 torch 2.3.0 xinference 0.12.2
Who can help? / 谁可以帮助到您?
Information / 问题信息
我使用的模型是glm4-9b-chat-1m,目前输入的seq_len=3w, 生成的token的seq_len大概500。 请教大佬们一个问题,当运行glm4时,当temperature<0.4时,大模型就卡住了,然后gpu的利用率就长时间的保持在97%的高位,一直不退出;当temperature>=0.4, 大模型时有输出的。
初步怀疑是大模型重复输出了,但是设置repeat_penalty为1.05和1.1都不起作用![image](https://github.com/THUDM/GLM-4/assets/154484711/4ce178f7-a40c-4dc1-9e72-0e332259190f)
Reproduction / 复现过程
Expected behavior / 期待表现
基于xinference部署的glm4,然后遇到上面的问题,期望给出合理的解释和解决办法