推理速度慢 - Githubissues

QwenLM / CodeQwen1.5

CodeQwen1.5 is the code version of Qwen, the large language model series developed by Qwen team, Alibaba Cloud.

385 stars 22 forks source link

推理速度慢 #16

Closed xiezhipeng-git closed 2 months ago

xiezhipeng-git commented 2 months ago

在本地运行codeQwen1.5 发现运行速度很慢。然后改成使用bf16以后有加速。但是还是很慢。这么小的模型速度居然比gpt4还要慢上很多倍，并且没有提供flashattension文件。能不能提供一些加速方法，作为默认实例说明在md文件里呢？ https://blog.csdn.net/qq_25038325/article/details/133990240 另外，使用modelscope 下载模型路径是qwen/CodeQwen1.5-7B-Chat 小写但是你们md文件里使用的是Qwen/CodeQwen1.5-7B-Chat 大写。导致，如果下载使用modelscope。然后代码使用你们的md里的代码，把transformers 改成modelscope 。代码又会重新下载一遍文件到本地。能不能把这里的大小写统一了呢？

cyente commented 2 months ago

感谢您的建议和对模型的支持～

关于模型加速的问题，建议您使用vllm进行推理/部署，具体使用方式，见md： https://github.com/QwenLM/CodeQwen1.5/blob/main/examples/CodeQwen1.5-base.md#use-codeqwen15-base-by-vllm

关于modelscope和huggingface仓库名称不统一的问题，目前已联系相关同学去修改了。感谢您的意见！:D

ccyhxg commented 2 months ago

哈罗，我测试了一下ModelScope的对于org的大小写是不敏感的，就是用Qwen，也可以用qwen，可以统一使用Qwen or qwen，感谢您的意见！

xiezhipeng-git commented 2 months ago

哈罗，我测试了一下ModelScope的对于org的大小写是不敏感的，就是用Qwen，也可以用qwen，可以统一使用Qwen or qwen，感谢您的意见！

windows 和 linux 对于文件的处理是不一样的。 windows 大小写不敏感。linux 以及wsl2 大小写敏感。我就是这样，本地下载了两份模型文件

xiezhipeng-git commented 2 months ago

感谢您的建议和对模型的支持～

关于模型加速的问题，建议您使用vllm进行推理/部署，具体使用方式，见md： https://github.com/QwenLM/CodeQwen1.5/blob/main/examples/CodeQwen1.5-base.md#use-codeqwen15-base-by-vllm

关于modelscope和huggingface仓库名称不统一的问题，目前已联系相关同学去修改了。感谢您的意见！:D

这个地址是一个问题多份回答吗？根据gpu数量？那不是作用不大？既不能加速单用户的推理速度，也不能加速多用户的推理速度。还是说我对这个功能的理解不对？