Oneflow-Inc / libai

LiBai(李白): A Toolbox for Large-Scale Distributed Parallel Training
https://libai.readthedocs.io
Apache License 2.0
389 stars 55 forks source link

多机训练失败后,非master node的进程没有完全kill掉 #416

Open frankxyy opened 1 year ago

frankxyy commented 1 year ago

如题,多机训练失败后,非master node还是存活着一个libai进程,导致会持续向控制台打印日志。类似这样的日志: image

strint commented 1 year ago

收到,我们尝试复现一下问题。

Flowingsun007 commented 1 year ago

您好,请问【多机训练失败】是手动CTRL + C结束程序,还是代码异常报错失败呢?

我这里基于:https://libai.readthedocs.io/en/latest/tutorials/get_started/quick_run.html 的bert demo跑了一下2机的,CTRL + C以后,master(node0)结束后,node1的程序是可以正常终止的。

frankxyy commented 1 year ago

代码异常报错失败哈