请问lora微调需要多少显存?效果如何?

OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone

Apache License 2.0

7.98k stars 558 forks source link

请问lora微调需要多少显存?效果如何? #327

Closed orderer0001 closed 11 hours ago

orderer0001 commented 1 week ago

3*4090能run起来吗?如果要从图片中提取一些文字信息,lora是否可以达到效果?

LDLINGLINGLING commented 1 week ago

如果使用lora和3张4090，并且用zero3+cpu offload的情况下是能够run起来的。如果显存爆了，可以尝试关闭图像模块的参数训练以及调整max_length和batch_size.另外从图片提取一些信息，lora可以达到效果。但是具体能否达到您的期望，需要训练后测试，以及使用较好的数据处理方式。

lyc728 commented 5 days ago

如果使用lora和3张4090，并且用zero3+cpu offload的情况下是能够run起来的。如果显存爆了，可以尝试关闭图像模块的参数训练以及调整max_length和batch_size.另外从图片提取一些信息，lora可以达到效果。但是具体能否达到您的期望，需要训练后测试，以及使用较好的数据处理方式。

你好我现在发现lora微调后效果不是很好，而swift框架进行lora微调效果还不错这是什么导致的额

qyc-98 commented 1 day ago

我们这里跟新了lora微调的方式，可以重新尝试一下。修正了参数微调加载的方式