alibaba / euler

A distributed graph deep learning framework.
Apache License 2.0
2.89k stars 559 forks source link

Euler2.0分布式训练遇到的问题 #295

Open John1203 opened 4 years ago

John1203 commented 4 years ago

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

alinamimi commented 4 years ago

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 meta文件是使用索引的时候的配置文件,不使用不需要写

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 对

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。 参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态,module表示图需要load 节点 还是边 还是都load

John1203 commented 4 years ago

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 meta文件是使用索引的时候的配置文件,不使用不需要写 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 对 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。 参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态,module表示图需要load 节点 还是边 还是都load

比如对于这个cora的数据集,在启动分布式训练的时候,zk_addr,zk_path,应该怎么填呢?因为以前没有部署过分布式训练的东西,想学习一下,是否可以提供一个完整的例子呢?

alinamimi commented 4 years ago

具体参考一下zk的文档,需要启动zk,euler需要启动的zk_addr 和 一个指定的zk_path

John1203 commented 4 years ago

好的,我查一下,谢谢了

ergouy commented 4 years ago

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

John1203 commented 4 years ago

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

ergouy commented 4 years ago

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件?

alinamimi commented 4 years ago

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件?

取模