THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
4.35k stars 327 forks source link

GLM-4的回答速度比GLM3慢很多吗? #352

Closed mxsbtr closed 1 month ago

mxsbtr commented 1 month ago

用的测试机是CPU:13700, 内存:32G, 显卡 4060Ti 16G,windows系统,测试的是glm-4-9b-chat和chatglm3,glm-4-9b-chat比glm3慢很多,glm4是一个词一个词出的,而glm3则快很多,一句一句出的,glm4是这么慢吗?

zRzRzRzRzRzRzR commented 1 month ago

一个是9B,一个是6B,CPU上肯定很慢了,这种一般都得上加速框架了

mxsbtr commented 1 month ago

不是用CPU哦,是用的 4060ti 16G显卡,另外问下加速框架是指什么

zRzRzRzRzRzRzR commented 1 month ago

16G显卡应该根本带不动BF16的9B模型,你是不是用到了共享内存还是int4,加速框架是vllm等