关于OOM错误 - Githubissues

HKUDS / GraphGPT

[SIGIR'2024] "GraphGPT: Graph Instruction Tuning for Large Language Models"

https://arxiv.org/abs/2310.13023

Apache License 2.0

635 stars 59 forks source link

关于OOM错误 #32

Closed bamboo-boy closed 9 months ago

bamboo-boy commented 11 months ago

您好，请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢？我使用4张A100，在训练时batch_size==2时出现了OOM错误，batch_size==1时可以正常训练，想请问可能是什么原因呢？

tjb-tech commented 11 months ago

您好，请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢？我使用4张A100，在训练时batch_size==2时出现了OOM错误，batch_size==1时可以正常训练，想请问可能是什么原因呢？

您好，请问您有用flash attention嘛

bamboo-boy commented 10 months ago

您好，请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢？我使用4张A100，在训练时batch_size==2时出现了OOM错误，batch_size==1时可以正常训练，想请问可能是什么原因呢？

您好，请问您有用flash attention嘛

有使用1.0.4版本的flash atttention

tjb-tech commented 10 months ago

atttention

请问是无法复现当前repos 的代码吗，还是在修改模型后发生的问题呢。目前repos中的代码是可以在单张40G A100上稳定运行的。可以检查一下是否是context length太长或者修改的模型其他部分导致参数增加。同时我们极力推荐您使用https://github.com/HKUDS/GraphGPT/tree/main/scripts/tune_script_light中的脚本，他可以显著减少训练中所需的显存。