Open jason-i-vv opened 4 months ago
这个例子我已在 PR #1141 中修复了。你可以按如下步骤
kubectl -n dlrover apply -f examples/tensorflow/criteo_deeprec/manual_job.yaml
这个job 将有如下 Pods
NAME READY STATUS RESTARTS AGE
deepctr-manual-scale-edljob-chief-0 1/1 Running 0 117s
deepctr-manual-scale-edljob-ps-0 1/1 Running 0 4m33s
deepctr-manual-scale-edljob-worker-0 1/1 Running 0 4m33s
elasticjob-deepctr-manual-scale-dlrover-master 1/1 Running 0 4m49s
当 chief-0 和 worker-0 开始运行后,可以手动扩容增加一个worker
kubectl -n dlrover apply -f examples/tensorflow/criteo_deeprec/scale_plan.yaml
然后会看到有个新的worker-1
NAME READY STATUS RESTARTS AGE
deepctr-manual-scale-edljob-chief-0 1/1 Running 0 117s
deepctr-manual-scale-edljob-ps-0 1/1 Running 0 4m33s
deepctr-manual-scale-edljob-worker-0 1/1 Running 0 4m33s
deepctr-manual-scale-edljob-worker-1 0/1 ContainerCreating 0 0s
elasticjob-deepctr-manual-scale-dlrover-master 1/1 Running 0 4m49s
如果不成功的话,可以确认下这个 master pod elasticjob-deepctr-manual-scale-dlrover-master 的镜像是不是 registry.cn-hangzhou.aliyuncs.com/intell-ai/dlrover:master
环境
问题
执行了
kubectl apply -f examples/tensorflow/criteo_deeprec/manual_job.yaml
,worker 节点一直未出现,只有一个 master 在出现了几千条 scanPlan 数据
且这些 scanPlan 的数据都是空的 :
请问如何才能验证一个 tensorflow 的弹性,无论是手工的还是自动的