lora微调后输出的模型文件发生变化，导致调用微调后的模型出现错误

QwenLM / Qwen-VL

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

Other

4.27k stars 327 forks source link

lora微调后输出的模型文件发生变化，导致调用微调后的模型出现错误 #390

Open InvincibleMinions opened 1 month ago

InvincibleMinions commented 1 month ago

原来的lora微调后模型文件

不知道怎么回事，也没动其他的东西，最近再微调，自己就变成下面这样然后微调时也报错如下：然后调用微调后的模型也报错：

之前都没有问题，突然就这样了

ZhengHanying commented 1 month ago

请问一下您这边是多卡微调的吗？

InvincibleMinions commented 1 month ago

请问一下您这边是多卡微调的吗？

不是，是单卡，现在倒是修好了，好像是环境的问题，不过不知道怎么回事adapter_model.bin现在从四百多M变成两百多M了，但是模型效果好像没变化

ybshaw commented 1 month ago

请问一下您这边是多卡微调的吗？

不是，是单卡，现在倒是修好了，好像是环境的问题，不过不知道怎么回事adapter_model.bin现在从四百多M变成两百多M了，但是模型效果好像没变化

请问下单卡多大的显存才能跑的动微调呢，我单机4卡，共90G的显存，不管是用loar还是qlora，以及分布式还是单机都一直报OOM

InvincibleMinions commented 1 month ago

请问一下您这边是多卡微调的吗？

不是，是单卡，现在倒是修好了，好像是环境的问题，不过不知道怎么回事adapter_model.bin现在从四百多M变成两百多M了，但是模型效果好像没变化

请问下单卡多大的显存才能跑的动微调呢，我单机4卡，共90G的显存，不管是用loar还是qlora，以及分布式还是单机都一直报OOM

我这里是单卡跑，单卡跑千问7B的lora的话，显存占用和finetune_lora_single_gpu.sh文件中的model_max_length参数有关，参数值越大显存占用越大，我这里参数值384，显存占用24G，参数值2048，显存占用45G

ybshaw commented 1 month ago

请问一下您这边是多卡微调的吗？

不是，是单卡，现在倒是修好了，好像是环境的问题，不过不知道怎么回事adapter_model.bin现在从四百多M变成两百多M了，但是模型效果好像没变化

请问下单卡多大的显存才能跑的动微调呢，我单机4卡，共90G的显存，不管是用loar还是qlora，以及分布式还是单机都一直报OOM

我这里是单卡跑，单卡跑千问7B的lora的话，显存占用和finetune_lora_single_gpu.sh文件中的model_max_length参数有关，参数值越大显存占用越大，我这里参数值384，显存占用24G，参数值2048，显存占用45G

降低length之后，直接报tensor错误了，请问有遇到吗，数据集也是直接用的官方的，就那两张图片，batch_size也是1，按理不会出现这种错误: RuntimeError: stack expects each tensor to be equal size, but got [1] at entry 0 and [0] at entry 2

KDD2018 commented 1 month ago

我也降低了model_max_length，不过是基于chat模型在2张3090上做lora微调，但是效果很差，我理解应该是没微调visual模块的参数导致的，请问大佬们有微调过visual模块吗？只微调visual模块，需要多少算力？

KhawLiang commented 3 weeks ago

@InvincibleMinions 请问一下你这个问题是怎么解决的。我也是遇到同样的问题。可以提供你解决这个问题的方法吗？😊

songduanxiao commented 2 weeks ago

调用模型IMAGE_SET的这个错误可以参考 https://github.com/QwenLM/Qwen-VL/issues/287

@InvincibleMinions 请问一下你这个问题是怎么解决的。我也是遇到同样的问题。可以提供你解决这个问题的方法吗？😊