qwen2速度慢 - Githubissues

mindspore-lab / mindnlp

Easy-to-use and high-performance NLP and LLM framework based on MindSpore, compatible with models and datasets of 🤗Huggingface.

https://mindnlp.cqu.ai/

Apache License 2.0

700 stars 197 forks source link

Closed AnitaSherry closed 3 months ago

AnitaSherry commented 5 months ago

/tests/ut/transformers/models/qwen2/test_modeling_qwen2.py 现在跑通了，速度非常非常慢

pipiPdesu commented 3 months ago

请问你现在解决问题了吗，我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

lvyufeng commented 3 months ago

gpu还是昇腾

AnitaSherry commented 3 months ago

gpu还是昇腾

昇腾910B

AnitaSherry commented 3 months ago

请问你现在解决问题了吗，我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

lvyufeng commented 3 months ago

请问你现在解决问题了吗，我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

你用的mindspore2.2吗，这个跟算子执行速度有关

AnitaSherry commented 3 months ago

请问你现在解决问题了吗，我这边使用ChatGLM-6B进行推理大概也就3-4tokens每秒

这个需要官方解决@lvyufeng

你用的mindspore2.2吗，这个跟算子执行速度有关

我用的最新版，2.3.0rc2

lvyufeng commented 3 months ago

有两部分原因：

我今天改了一下chatglm2的代码，能从320ms/token优化到160ms/token, 在鲲鹏CPU环境下需要使用以下方式执行： taskset -c 0-23 python cli_demo.py

lvyufeng commented 3 months ago

qwen2的执行速度我晚点再看看怎么优化