Closed sydpz closed 4 years ago
建议分布式运行xdl时,增加debug模式,当任务失败时能够保留docker镜像,当前运行分布式的 deepctr.py 时, 通过 yarn 日志看到 worker 发生了 core dump 退出,但是由于 docker 镜像在任务结束时已经删除,不好跟踪问题
是不是可以尝试一下让core文件的生成目录是挂载的宿主机目录?
建议分布式运行xdl时,增加debug模式,当任务失败时能够保留docker镜像,当前运行分布式的 deepctr.py 时, 通过 yarn 日志看到 worker 发生了 core dump 退出,但是由于 docker 镜像在任务结束时已经删除,不好跟踪问题