Closed mxsbtr closed 1 month ago
用的测试机是CPU:13700, 内存:32G, 显卡 4060Ti 16G,windows系统,测试的是glm-4-9b-chat和chatglm3,glm-4-9b-chat比glm3慢很多,glm4是一个词一个词出的,而glm3则快很多,一句一句出的,glm4是这么慢吗?
一个是9B,一个是6B,CPU上肯定很慢了,这种一般都得上加速框架了
不是用CPU哦,是用的 4060ti 16G显卡,另外问下加速框架是指什么
16G显卡应该根本带不动BF16的9B模型,你是不是用到了共享内存还是int4,加速框架是vllm等
用的测试机是CPU:13700, 内存:32G, 显卡 4060Ti 16G,windows系统,测试的是glm-4-9b-chat和chatglm3,glm-4-9b-chat比glm3慢很多,glm4是一个词一个词出的,而glm3则快很多,一句一句出的,glm4是这么慢吗?