Qihoo360 / hbox

AI on Hadoop
Apache License 2.0
1.73k stars 385 forks source link

Tensorflow任务修改不同worker num,任务提交失败 #32

Closed sinllychen closed 5 months ago

sinllychen commented 6 years ago

对于demo任务,我在submit命令行中,修改了worker的个数>=3的 worker num执行都会失败,不知道什么问题,从DEBUG日志也看不出是什么错。 qq 20180419111654

qq 20180419111623

jiarunying commented 6 years ago

页面查看container对应的报错信息。demo提供的文件数为2,worker数目>2时,会有worker获取不到数据

sinllychen commented 6 years ago

@jiarunying 所以你们在分布式的时候,没有在程序里面对数据进行分片,而是需要提供已经分片好的数据是吗?

jiarunying commented 6 years ago

input参数对应输入文件的分发,如果是默认的download的模式,则是以hdfs路径下对应的文件个数为单位进行的分发;如果是STREAM模式,则是按照mr中类似的split大小进行分片分发。

sinllychen commented 6 years ago

@jiarunying 我看了一下你们Stream这边的代码,它的分片只分了一片,感觉很奇怪。我觉得这个地方应该是worker的个数才对 qq 20180419165248