OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone
Apache License 2.0
7.98k stars 558 forks source link

请问lora微调需要多少显存?效果如何? #327

Closed orderer0001 closed 11 hours ago

orderer0001 commented 1 week ago

3*4090能run起来吗?如果要从图片中提取一些文字信息,lora是否可以达到效果?

LDLINGLINGLING commented 1 week ago

如果使用lora和3张4090,并且用zero3+cpu offload的情况下是能够run起来的。如果显存爆了,可以尝试关闭图像模块的参数训练以及调整max_length和batch_size.另外从图片提取一些信息,lora可以达到效果。但是具体能否达到您的期望,需要训练后测试,以及使用较好的数据处理方式。

lyc728 commented 5 days ago

如果使用lora和3张4090,并且用zero3+cpu offload的情况下是能够run起来的。如果显存爆了,可以尝试关闭图像模块的参数训练以及调整max_length和batch_size.另外从图片提取一些信息,lora可以达到效果。但是具体能否达到您的期望,需要训练后测试,以及使用较好的数据处理方式。

你好 我现在发现lora微调后效果不是很好,而swift框架进行lora微调效果还不错 这是什么导致的额

qyc-98 commented 1 day ago

我们这里跟新了lora微调的方式,可以重新尝试一下。修正了参数微调加载的方式