13B推理问题 - Githubissues

Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案，结构参考alpaca

https://github.com/Facico/Chinese-Vicuna

Apache License 2.0

4.14k stars 422 forks source link

Open imjking opened 1 year ago

imjking commented 1 year ago

你好，使用13B推理时该如何指定GPU？（现在有四块3080Ti）

使用7B推理时，按照generate.sh代码可以直接跑起来；

使用13B推理时：

但输入指令时报了如下错误：

直接报oom错误：

推理13B时该如何解决这种情况啊，如何指定GPU呢？

Facico commented 1 year ago

第一个问题可以看看我们的note，有非常多类似的问题第二个问题，3080Ti显存不足以推理13B，你可以试试7B的。同时我们的代码只支持单卡推理，多卡只在不同的卡上跑不同的脚本，不能用多卡加速一条询问的推理

imjking commented 1 year ago

@Facico 好的，我再看一下。

再问一下，能不能多卡加速推理呢，有没有相关的链接可以推荐一下，谢谢。 13B的模型只有量化了之后才能在低显存显卡上推理是吧。

LZY-the-boys commented 1 year ago

多卡推理目前可以看这个 https://www.deepspeed.ai/tutorials/inference-tutorial/, 但我们还没有尝试过

Facico commented 1 year ago

@imjking 我们一个月前的版本已经支持多卡推理了，把依赖更新到requirement_4bit.txt中的就行