Closed AnitaSherry closed 3 months ago
请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒
gpu还是昇腾
gpu还是昇腾
昇腾910B
请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒
这个需要官方解决@lvyufeng
请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒
这个需要官方解决@lvyufeng
你用的mindspore2.2吗,这个跟算子执行速度有关
请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒
这个需要官方解决@lvyufeng
你用的mindspore2.2吗,这个跟算子执行速度有关
我用的最新版,2.3.0rc2
有两部分原因:
我今天改了一下chatglm2的代码,能从320ms/token优化到160ms/token, 在鲲鹏CPU环境下需要使用以下方式执行:
taskset -c 0-23 python cli_demo.py
qwen2的执行速度我晚点再看看怎么优化
/tests/ut/transformers/models/qwen2/test_modeling_qwen2.py 现在跑通了,速度非常非常慢
Originally posted by @AnitaSherry in https://github.com/mindspore-lab/mindnlp/issues/1152#issuecomment-2148693146