Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 422 forks source link

13B推理问题 #161

Open imjking opened 1 year ago

imjking commented 1 year ago

你好,使用13B推理时该如何指定GPU?(现在有四块3080Ti)

使用7B推理时,按照generate.sh代码可以直接跑起来;

使用13B推理时:

  1. 修改generate.sh如下: image 修改generate.py如下: image

但输入指令时报了如下错误: image

  1. 修改generate.py如下: image

image

直接报oom错误: image

推理13B时该如何解决这种情况啊,如何指定GPU呢?

Facico commented 1 year ago

第一个问题可以看看我们的note,有非常多类似的问题 第二个问题,3080Ti显存不足以推理13B,你可以试试7B的。同时我们的代码只支持单卡推理,多卡只在不同的卡上跑不同的脚本,不能用多卡加速一条询问的推理

imjking commented 1 year ago

@Facico 好的,我再看一下。

再问一下,能不能多卡加速推理呢,有没有相关的链接可以推荐一下,谢谢。 13B的模型只有量化了之后才能在低显存显卡上推理是吧。

LZY-the-boys commented 1 year ago

多卡推理目前可以看这个 https://www.deepspeed.ai/tutorials/inference-tutorial/, 但我们还没有尝试过

Facico commented 1 year ago

@imjking 我们一个月前的版本已经支持多卡推理了,把依赖更新到requirement_4bit.txt中的就行