Closed FANNG1 closed 6 years ago
你好,我也遇到了同样的问题,请问你解决了吗?
还没有, cc @liyuance 你们碰到过没?
18/03/15 14:48:13 INFO XLearningContainer: 2018-03-15 14:48:13.840737: E tensorflow/core/distributed_runtime/master.cc:269] Master init: Unavailable: OS Error
我也遇到了同样的问题,偶尔会报出这个错误,但不是每次都会出现。现在还没有找到原因~
感觉像是TF报的错误,不用XLearning直接跑TF能复现吗?
@liyuance 可以复现。确实不是 XLearning 的问题。
但我在启动worker前加上了time.sleep(10),还是没有解决这个问题 @fengzanfeng
是加在这个位置吗?@shoukna
31 if FLAGS.job_name == "ps": 32 server.join() 33 elif FLAGS.job_name == "worker": 34 time.sleep(15)
是的
我找了两台机器测试了一下,在没有启动 ps 时,先启动 worker ,必现。
我已经成功运行了,谢谢@fengzanfeng
tensorflow不太懂,谁给社区提个issue,看看什么问题?
两个worker,只启动一个,也会出现上面的错误,必现。 这应该算tensorflow的bug吧
你好,我们也遇到相同的问题,请问你们解决了么 @sandflee
最近在测试1.8 也遇到这个问题了,tf底层现在是,在刚开始初始化的时候,每个worker会去连接各个ps,如果ps没有启动就会抛出异常。supervisor这个接口当catch这个异常后,直接退出了,我把tf.train.Supervisor 改成tf.train.MonitoredTrainingSession后,现在能够正常跑了,因为MonitorTrainingSession这个接口,当初始化失败后,会重新创建一个新的session
恩,用了MonitorTrainingSession没这个问题了, @han1057578619 @chengdianxuezi