PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.26k stars 5.6k forks source link

paddlecloud提交v2版本集群训练随机出错 #14585

Closed HugoLian closed 5 years ago

HugoLian commented 5 years ago

我们使用的是paddlecloud v0.10版本训练

每天不同的训练任务都会以类似的随机错误失败,发生的轮数和时间都不定,这个问题从我们第一次使用到现在就一直存在,已经向paddlecloud的同学提了icafe,但目前无法定位问题,需要paddle的同学帮忙看一下,下面是近期的几个任务地址,如果需要我还可以继续提供,请帮忙看一下吧,非常感谢!

http://10.102.215.17:8900/fileview.html?path=/home/disk1/normandy/maybach/app-user-20181126134915-5825/

http://10.102.215.34:8900/fileview.html?path=/home/disk1/normandy/maybach/app-user-20181126110116-5705/

jacquesqiao commented 5 years ago

建议使用fluid进行分布式训练

lucywsq commented 5 years ago

您好,此issue在近三周内暂无更新,我们将于今天内关闭。若在关闭后您仍需跟进提问,可重新开启此问题,我们将在24小时内回复您。因关闭带来的不便我们深表歉意,请您谅解~感谢您对PaddlePaddle的支持