alibaba / euler

A distributed graph deep learning framework.
Apache License 2.0
2.89k stars 559 forks source link

分布式训练,ZK连接失败 #149

Open FlyLearning opened 5 years ago

FlyLearning commented 5 years ago

离线内网环境。采用制作docker镜像的方式部署欧拉,共有3台虚拟机(10.200.33.4 和10.200.33.5和10.200.33.6),1台作为ps节点,2台作为wroker节点。在3台虚拟机上同时部署zookeeper集群,经测试,zookeeper集群联通没问题,其中10.200.33.5是leader节点。具体架构可参加附件图片。 942620662 1921571094

运行docker时,采用net=host模式。 单机训练测试通过。联机时,提示“Fail to initialize ZK connection”,具体见附件图片

求各位大神支招。

yangsiran commented 5 years ago

可以先试试zkCli能不能连上ZK。

或者单测一下下面这段代码: https://github.com/alibaba/euler/blob/ff40594cfebfa55ada4a1142acbc020dab368d81/euler/common/zk_server_monitor.cc#L89-L94

FlyLearning commented 5 years ago

@yangsiran 谢谢。我把之前的zookeeper集群解散,只在一台虚拟机上(10.200.33.4)部署zookeeper。两台worker,一台可以连上zk了(10.200.33.5).另外一台不知道什么原因,还是无法连接ZK(10.200.33.9),报和之前同样的错误。 现在拿两台虚拟机做分布式测试,一台ps,一台worker。又出现新的错误,读取hdfs文件失败。具体见附件图片。请各位大神支招。 测试数据是ppi数据,先切成了4份,然后转为2进制,放在了hdfs上。 hadoop是部署在ps所在的节点上(10.200.33.4),伪分布式。 1891081970 528926581 175928666