Euler2.0分布式训练遇到的问题

John1203 commented 4 years ago

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。

2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。

alinamimi commented 4 years ago

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。 meta文件是使用索引的时候的配置文件，不使用不需要写

2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part 对

3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态，module表示图需要load 节点还是边还是都load

John1203 commented 4 years ago

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。 meta文件是使用索引的时候的配置文件，不使用不需要写 2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part 对 3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态，module表示图需要load 节点还是边还是都load

比如对于这个cora的数据集，在启动分布式训练的时候，zk_addr，zk_path，应该怎么填呢？因为以前没有部署过分布式训练的东西，想学习一下，是否可以提供一个完整的例子呢？

alinamimi commented 4 years ago

具体参考一下zk的文档，需要启动zk，euler需要启动的zk_addr 和一个指定的zk_path

John1203 commented 4 years ago

好的，我查一下，谢谢了

ergouy commented 4 years ago

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。

2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件，还是要切分成多个二进制文件？

John1203 commented 4 years ago

把一个文件，切分成多个二进制文件

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。 2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件，还是要切分成多个二进制文件？

把一个文件切分成多个二进制文件

ergouy commented 4 years ago

把一个文件，切分成多个二进制文件

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。 2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件，还是要切分成多个二进制文件？

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件？

alinamimi commented 4 years ago

把一个文件，切分成多个二进制文件

我使用cora的数据，在单机上跑通了graphsage模型。使用中间生成的json文件(convert_data.json)，执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、这里的meta文件是在起什么作用？因为我看在cora的处理中，meta是空的。 2、在只有一个json文件的时候，执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候，zk_addr，zk_path，module，应该怎么填呢？分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件，还是要切分成多个二进制文件？

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件？

取模

alibaba / euler

Euler2.0分布式训练遇到的问题 #295