THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.19k stars 1.52k forks source link

执行了composition_demo,发现仅仅用了一个cpu去执行推理。速度非常慢。这个是什么原因导致的? #1252

Closed pengyuxiang1 closed 1 month ago

pengyuxiang1 commented 1 month ago

System Info / 系統信息

centos系统,CUDA Version: 11.7

Who can help? / 谁可以帮助到您?

@abmfy

Information / 问题信息

Reproduction / 复现过程

安装官方指引去部署了chatGLM3。目前能执行起来了。 image

但是速度非常的慢,我用top看了一下,它仅仅用了我一个cpu,而我是10核的cpu的,所以速度变得特别慢,想问一下,这是为什么? 企业微信截图_17174222484108

看它执行程序的日志,看起来也是正常的:

image

Expected behavior / 期待表现

虽然看起来我的cuda版本低,用不了gpu,但是cpu推理应该也不至于这么慢?

zRzRzRzRzRzRzR commented 1 month ago

cpu的话一秒大概1-2个字? 还是建议GPU吧