QwenLM / CodeQwen1.5

CodeQwen1.5 is the code version of Qwen, the large language model series developed by Qwen team, Alibaba Cloud.
385 stars 22 forks source link

推理速度慢 #16

Closed xiezhipeng-git closed 2 months ago

xiezhipeng-git commented 2 months ago

在本地运行codeQwen1.5 发现运行速度很慢。然后改成使用bf16以后有加速。但是还是很慢。这么小的模型速度居然比gpt4还要慢上很多倍,并且没有提供flashattension文件。能不能提供一些加速方法,作为默认实例说明在md文件里呢? https://blog.csdn.net/qq_25038325/article/details/133990240 另外,使用modelscope 下载模型路径是qwen/CodeQwen1.5-7B-Chat 小写 但是你们md文件里使用的是Qwen/CodeQwen1.5-7B-Chat 大写。导致,如果下载使用modelscope。然后代码使用你们的md里的代码,把transformers 改成modelscope 。 代码又会重新下载一遍文件到本地。能不能把这里的大小写统一了呢?

cyente commented 2 months ago

感谢您的建议和对模型的支持~

关于模型加速的问题,建议您使用vllm进行推理/部署,具体使用方式,见md: https://github.com/QwenLM/CodeQwen1.5/blob/main/examples/CodeQwen1.5-base.md#use-codeqwen15-base-by-vllm

关于modelscope和huggingface仓库名称不统一的问题,目前已联系相关同学去修改了。感谢您的意见!:D

ccyhxg commented 2 months ago

哈罗,我测试了一下ModelScope的对于org的大小写是不敏感的,就是用Qwen,也可以用qwen,可以统一使用Qwen or qwen,感谢您的意见!

xiezhipeng-git commented 2 months ago

哈罗,我测试了一下ModelScope的对于org的大小写是不敏感的,就是用Qwen,也可以用qwen,可以统一使用Qwen or qwen,感谢您的意见!

windows 和 linux 对于文件的处理是不一样的。 windows 大小写不敏感。linux 以及wsl2 大小写敏感。 我就是这样,本地下载了两份模型文件

xiezhipeng-git commented 2 months ago

感谢您的建议和对模型的支持~

关于模型加速的问题,建议您使用vllm进行推理/部署,具体使用方式,见md: https://github.com/QwenLM/CodeQwen1.5/blob/main/examples/CodeQwen1.5-base.md#use-codeqwen15-base-by-vllm

关于modelscope和huggingface仓库名称不统一的问题,目前已联系相关同学去修改了。感谢您的意见!:D

这个地址是一个问题多份回答吗? 根据gpu数量?那不是作用不大?既不能加速单用户的推理速度,也不能加速多用户的推理速度。还是说我对这个功能的理解不对?