V100是否可以被用来训练模型呢？

gyxxyg / VTG-LLM

[Preprint] VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

https://arxiv.org/abs/2405.13382

Apache License 2.0

51 stars 1 forks source link

Closed tiesanguaixia closed 4 months ago

tiesanguaixia commented 4 months ago

您好，感谢您很棒的工作及代码开源！想请教一下V100这样的GPU是否可以用于模型训练呢？谢谢！

gyxxyg commented 4 months ago

感谢关注！现在huggingface的模型可以使用v100进行微调（请注意torch版本，可以参考requirements-v100.txt）。如果是完整训练的话，因为V100显存较小，可能没法完全复用我们的setting。您可以尝试关掉qformer的梯度/不使用lora，或进行分阶段训练。

tiesanguaixia commented 4 months ago

感谢关注！现在huggingface的模型可以使用v100进行微调（请注意torch版本，可以参考requirements-v100.txt）。如果是完整训练的话，因为V100显存较小，可能没法完全复用我们的setting。您可以尝试关掉qformer的梯度/不使用lora，或进行分阶段训练。

好的谢谢，多张V100分布式可以复用setting来训练吗

gyxxyg commented 4 months ago

目前只用了数据并行，所以我猜测可能不太行。明天我会去尝试一下。

gyxxyg commented 4 months ago

我用4卡v100尝试了一下，可以用默认setting训练。注意step数目需要根据自己的卡数手动调整