alibaba / x-deeplearning

An industrial deep learning framework for high-dimension sparse data
Apache License 2.0
4.26k stars 1.03k forks source link

建议分布式运行xdl时,增加debug模式,当任务失败时能够保留docker镜像 #47

Closed sydpz closed 4 years ago

sydpz commented 5 years ago

建议分布式运行xdl时,增加debug模式,当任务失败时能够保留docker镜像,当前运行分布式的 deepctr.py 时, 通过 yarn 日志看到 worker 发生了 core dump 退出,但是由于 docker 镜像在任务结束时已经删除,不好跟踪问题

lovickie commented 5 years ago

是不是可以尝试一下让core文件的生成目录是挂载的宿主机目录?