alibaba / euler

A distributed graph deep learning framework.
Apache License 2.0
2.89k stars 559 forks source link

Euler2.0 大规模图数据加载时报错 #299

Open ergouy opened 3 years ago

ergouy commented 3 years ago

在安装好zookeeper集群的基础上 调用代码: euler.start( directory='euler_graph_data_dir', # 图数据路径 shard_idx=k, # 当前启动的进程为k号shard shard_num=N, # 一共有N个shard zk_addr=zk_addr, # Zookeeper address, ip:port zk_path=zk_path, # Zookeeper path module=euler.Module.DEFAULT_MODULE) while True: time.sleep(1)

报错信息: 2020-08-16 17:09:50.725018: W /Euler-OpenSource/euler/core/graph/graph_builder.cc:156] Graph build completely! 2020-08-16 17:09:50.725038: W /Euler-OpenSource/euler/core/graph/graph.cc:111] Build graph successfully, shard Index: 2, shard number: 3, data path: /home/cora/euler, sampler_type: node 2020-08-16 17:09:50.725307: W /Euler-OpenSource/euler/service/grpc_server.cc:166] Missing Index directory, skip loading index. 2020-08-16 17:09:50.725340: E /Euler-OpenSource/euler/core/graph/graph.cc:434] global sampler is not ok 2020-08-16 17:09:50.725355: F /Euler-OpenSource/euler/core/graph/graph_meta.cc:41] Find feature error, Unknown feature name: binary_graph_label 2020-08-16 17:10:30.745360: F /Euler-OpenSource/euler/common/zk_server_register.cc:83] ZK error when creating root node: operation timeout. 2020-08-16 17:11:10.769324: F /Euler-OpenSource/euler/common/zk_server_register.cc:106] ZK error when creating meta: operation timeout. Segmentation fault

这是怎么产生的,怎样解决这个问题?

John1203 commented 3 years ago

这个是zookeeper的path问题,把path改成/home试一下

ergouy commented 3 years ago

这个是zookeeper的path问题,把path改成/home试一下

这是我的zookeeper安装路径:/usr/mysoft/myCluster/zookeeper01 我运行时用的path是:/usr/mysoft/myCluster/zookeeper01/bin 您说的/home是指 /usr/mysoft/myCluster/zookeeper01这个路径吗? 我把path改成 /usr/mysoft/myCluster/zookeeper01这个路径测试还是报同样的错误

John1203 commented 3 years ago

zookeeper的路径和你的安装路径没有关系,直接把zookeeper的path改成/home,应该就可以了,我这边就是这样的

ergouy commented 3 years ago

zookeeper的路径和你的安装路径没有关系,直接把zookeeper的path改成/home,应该就可以了,我这边就是这样的

嗯嗯,我试试,谢谢!

我刚才试了下,还是报了相同的错误。 我用的系统提供的数据集,生成了10个二进制数据文件(这一步应该没有问题),然后用三个服务器(shard_num=3)来跑(伪分布式) 安装好zookeeper集群,设置好参数后,运行了:

euler.start( directory='euler_graph_data_dir', # 图数据路径 /home/cora/euler shard_idx=k, # 当前启动的进程为k号shard 0 (第一次的时候) shard_num=N, # 一共有N个shard 3 zk_addr=zk_addr, # Zookeeper address, ip:port 47.105.50.97:2181 zk_path=zk_path, # Zookeeper path /home module=euler.Module.DEFAULT_MODULE) while True: time.sleep(1)

就报了上面的错误,不知道是哪里出了问题?

John1203 commented 3 years ago

zookeeper的路径和你的安装路径没有关系,直接把zookeeper的path改成/home,应该就可以了,我这边就是这样的

嗯嗯,我试试,谢谢!

我刚才试了下,还是报了相同的错误。 我用的系统提供的数据集,生成了10个二进制数据文件(这一步应该没有问题),然后用三个服务器(shard_num=3)来跑(伪分布式) 安装好zookeeper集群,设置好参数后,运行了:

euler.start( directory='euler_graph_data_dir', # 图数据路径 /home/cora/euler shard_idx=k, # 当前启动的进程为k号shard 0 (第一次的时候) shard_num=N, # 一共有N个shard 3 zk_addr=zk_addr, # Zookeeper address, ip:port 47.105.50.97:2181 zk_path=zk_path, # Zookeeper path /home module=euler.Module.DEFAULT_MODULE) while True: time.sleep(1)

就报了上面的错误,不知道是哪里出了问题?

你可以看看你的zookeeper是不是安装有问题,是否起来了

ergouy commented 3 years ago

zookeeper的路径和你的安装路径没有关系,直接把zookeeper的path改成/home,应该就可以了,我这边就是这样的

嗯嗯,我试试,谢谢! 我刚才试了下,还是报了相同的错误。 我用的系统提供的数据集,生成了10个二进制数据文件(这一步应该没有问题),然后用三个服务器(shard_num=3)来跑(伪分布式) 安装好zookeeper集群,设置好参数后,运行了: euler.start( directory='euler_graph_data_dir', # 图数据路径 /home/cora/euler shard_idx=k, # 当前启动的进程为k号shard 0 (第一次的时候) shard_num=N, # 一共有N个shard 3 zk_addr=zk_addr, # Zookeeper address, ip:port 47.105.50.97:2181 zk_path=zk_path, # Zookeeper path /home module=euler.Module.DEFAULT_MODULE) while True: time.sleep(1) 就报了上面的错误,不知道是哪里出了问题?

你可以看看你的zookeeper是不是安装有问题,是否起来了

确实是zookeeper没起来,报错了:

Client port found: 2181. Client address: localhost. Error contacting service. It is probably not running.

我先自己试着解决下。