HKUDS / GraphGPT

[SIGIR'2024] "GraphGPT: Graph Instruction Tuning for Large Language Models"
https://arxiv.org/abs/2310.13023
Apache License 2.0
493 stars 36 forks source link

关于OOM错误 #32

Closed bamboo-boy closed 4 months ago

bamboo-boy commented 6 months ago

您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 1 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?

tjb-tech commented 6 months ago

您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 1 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?

您好,请问您有用flash attention嘛

bamboo-boy commented 6 months ago

您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 1 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?

您好,请问您有用flash attention嘛

有使用1.0.4版本的flash atttention

tjb-tech commented 6 months ago

atttention

请问是无法复现当前repos 的代码吗,还是在修改模型后发生的问题呢。目前repos中的代码是可以在单张40G A100上稳定运行的。可以检查一下是否是context length太长或者修改的模型其他部分导致参数增加。同时我们极力推荐您使用https://github.com/HKUDS/GraphGPT/tree/main/scripts/tune_script_light中的脚本,他可以显著减少训练中所需的显存。