Closed bamboo-boy closed 9 months ago
您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?
您好,请问您有用flash attention嘛
您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?
您好,请问您有用flash attention嘛
有使用1.0.4版本的flash atttention
atttention
请问是无法复现当前repos 的代码吗,还是在修改模型后发生的问题呢。目前repos中的代码是可以在单张40G A100上稳定运行的。可以检查一下是否是context length太长或者修改的模型其他部分导致参数增加。同时我们极力推荐您使用https://github.com/HKUDS/GraphGPT/tree/main/scripts/tune_script_light中的脚本,他可以显著减少训练中所需的显存。
您好, 请问graphgpt_stage1.sh对应的是论文中如下图的实验部分的Stage-1-freeze还是Stage-1-tune呢? 我使用4张A100,在训练时batch_size==2时出现了OOM错误,batch_size==1时可以正常训练,想请问可能是什么原因呢?