FederatedAI / FATE-LLM

Federated Learning for LLMs.
Apache License 2.0
142 stars 24 forks source link

运行ChatGLM-6B报错误后VGPU-CORE资源不释放 #80

Open LillianXu00 opened 3 months ago

LillianXu00 commented 3 months ago

运行ChatGLM-6B报错误后(错误信息见issue-运行tutorial中的ChatGLM-6B报grpc错误),发现VGPU-CORE资源不足,但是eggroll的dashboard展示的可分配VGPU-CORE资源数量是正常的。 到mysql中手动修改node 和processor manage表,将deepspeed任务pre-allocated的VGPU-CORE记录清除,才能重新提交任务。 清楚后可以分配到资源,但是visibleCudaDevices又变成-1了,使用nvidia-smi查看GPU是正常的,执行非FATE的GPU训练任务也能正常执行。

dylan-fan commented 1 month ago

你这个是FATE-LLM哪个版本?

LillianXu00 commented 1 month ago

AnsibleFATE_2.1.0_LLM_2.0.0_release_offline.tar.gz

在 2024-07-09 16:32:57,"FanTao" @.***> 写道:

你这个是FATE-LLM哪个版本?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>