mindspore-lab / mindnlp

Easy-to-use and high-performance NLP and LLM framework based on MindSpore, compatible with models and datasets of 🤗Huggingface.
https://mindnlp.cqu.ai/
Apache License 2.0
700 stars 197 forks source link

qwen2速度慢 #1168

Closed AnitaSherry closed 3 months ago

AnitaSherry commented 5 months ago

/tests/ut/transformers/models/qwen2/test_modeling_qwen2.py 现在跑通了,速度非常非常慢

Originally posted by @AnitaSherry in https://github.com/mindspore-lab/mindnlp/issues/1152#issuecomment-2148693146

pipiPdesu commented 3 months ago

请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

lvyufeng commented 3 months ago

gpu还是昇腾

AnitaSherry commented 3 months ago

gpu还是昇腾

昇腾910B

AnitaSherry commented 3 months ago

请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

lvyufeng commented 3 months ago

请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

你用的mindspore2.2吗,这个跟算子执行速度有关

AnitaSherry commented 3 months ago

请问你现在解决问题了吗,我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

你用的mindspore2.2吗,这个跟算子执行速度有关

我用的最新版,2.3.0rc2

lvyufeng commented 3 months ago

有两部分原因:

  1. python执行的处理造成的算子下发间隔
  2. 鲲鹏处理器执行会跳核影响 算子下发速度

我今天改了一下chatglm2的代码,能从320ms/token优化到160ms/token, 在鲲鹏CPU环境下需要使用以下方式执行: taskset -c 0-23 python cli_demo.py

lvyufeng commented 3 months ago

qwen2的执行速度我晚点再看看怎么优化