X-PLUG / mPLUG-Owl

mPLUG-Owl: The Powerful Multi-modal Large Language Model Family
https://www.modelscope.cn/studios/damo/mPLUG-Owl
MIT License
2.25k stars 171 forks source link

第二阶段微调需要的时间 #143

Closed JustQJ closed 1 year ago

JustQJ commented 1 year ago

感谢大佬工作,想再确认一下微调需要的时间。

29 提到使用了一张40G的A100来进行第二阶段的微调, #89 提到花了7天进行训练,想问一下 #89 中的时间是总的两个阶段的时间吗,如果是,那么第二阶段的时间需要多久呢?

目前我在一张80G的A100上进行第二阶段微调的测试,使用的是论文中提到的150k的llava数据集,但是我大概需要140个小时才能完成,这个时间是正常的吗(个人感觉太长了)?同时,我的batch size最大只能设置到16,这是否合理。 谢谢!

MAGAer13 commented 1 year ago

Yes. For stage 2, it takes about 8 hours on 8 A100 cards. You can use gradient accumulation to get larger batch size.