模型load cuda out of memory - Githubissues

shuxueslpi / chatGLM-6B-QLoRA

使用peft库，对chatGLM-6B/chatGLM2-6B实现4bit的QLoRA高效微调，并做lora model和base model的merge及4bit的量化（quantize）。

356 stars 46 forks source link

模型load cuda out of memory #7

Closed yxk9810 closed 1 year ago

yxk9810 commented 1 year ago

hi, 我使用20g的3090卡但是load 时候报cuda out of memory , 请问这个有方法优化？我记得之前跑lora的时候貌似10多个g就可以跑lora finetuning

yxk9810 commented 1 year ago

之前跑的是这个：https://github.com/mymusise/ChatGLM-Tuning/blob/master/finetune.py，所以这个load 模型的部分应该是由优化的方法的吧？之前这个由于glm 模型升级后就不能跑了

shuxueslpi commented 1 year ago

你跑的是chatGLM2-6B吗？我实测chatGLM2-6B在训练时内存占用明显高于chatGLM-6B，刚刚更新了README文件，做了说明。在24G显存的情况下，per_device_batch_size设置为4可以正常跑下去，而chatGLM-6B，在12G显存的时候，都可以把per_device_batch_size调到8 关于这点，我也困惑中……

shuxueslpi commented 1 year ago

@wujindou 看了下，我和他用的是一样的load方法，都是用peft库把8bit或4bit的模型加载进来

yxk9810 commented 1 year ago

我跑的是chatglm6B,可能我这显存不太够，请教6b加载需要多少GPU？提示oom错误是在prepare_kbit时候

starphantom666 commented 1 year ago

你跑的是chatGLM2-6B吗？我实测chatGLM2-6B在训练时内存占用明显高于chatGLM-6B，刚刚更新了README文件，做了说明。在24G显存的情况下，per_device_batch_size设置为4可以正常跑下去，而chatGLM-6B，在12G显存的时候，都可以把per_device_batch_size调到8 关于这点，我也困惑中……

这显存占用的问题太大了，输出质量高输入长度长固然很好，但是要优化还是得靠sft、ppo什么的，，，现在我单卡2k上下文啃都啃不动，而chatglm1代，轻松4k上下文

shuxueslpi commented 1 year ago

@wujindou 不应该啊，我例子里那个数据集，如果使用chatglm-6b的话，一张RTX3060,12G的显存就能跑下来了，batchsize=8，刚开始占用8G多，后面11G多，但没有OOM 如果是chatglm2-6b的话，我用的24G的3090，batchsize=4，占用22G

shuxueslpi commented 1 year ago

@starphantom666 你多大的显存？

starphantom666 commented 1 year ago

@starphantom666 你多大的显存？

24G 4090

shuxueslpi commented 1 year ago

好像2代模型普遍存在这个问题：https://github.com/THUDM/ChatGLM2-6B/issues/94

shuxueslpi commented 1 year ago

@starphantom666 @wujindou 2代模型已经修复了，拉最新的模型，主要是里面几个py文件，训练时显存占用和1代差不多