alibaba / graph-learn

An Industrial Graph Neural Network Framework
Apache License 2.0
1.28k stars 267 forks source link

执行tutorial的时候k8s中有些pod启动失败 #242

Closed Homura2333 closed 1 year ago

Homura2333 commented 1 year ago

执行到这一步:

完成之后查看k8s的pods,发现有两个pods的STATUS显示running,但是READY一直都是0/1。

image

执行kubectl describe pod之后,返回以下信息:

EA012B69-4ACF-48DC-9AD5-775B37B0360E image

提示探针连接失败了,我在执行curl 10.244.46.4:10000之后也确实无法连接,但是看样子ip和端口应该是正确的。

这可能会是什么问题呢?相关的配置文件我都没有修改过,是直接按照tutorial的指引跑的。

Homura2333 commented 1 year ago

Log显示:

image

看起来没什么问题

Homura2333 commented 1 year ago

顺便一提,执行

export DgsServiceIP=$(kubectl get ingress --namespace default dgs-u2i-frontend-ingress --output jsonpath='{.status.loadBalancer.ingress[0].ip}')
echo $DgsServiceIP

也无法输出service ip,是空的。 执行kubectl get ingress dgs-u2i-frontend-ingress之后返回如下:

image

ADDRESS字段是空的。这又是为什么呢?是否跟我没有正确配置好nginx controller有关系呢? 执行kubectl get svc返回如下:

image

有没有人能帮助我?

goldenleaves commented 1 year ago

能否给出serving worker里面更详细的日志,目前看来你给出的log只显示了serving worker向coordinator注册了,但是没有显示自己处于ready状态。只有当serving worker处于ready之后,相关的service port才可以被访问。 @Homura2333

Homura2333 commented 1 year ago

能否给出serving worker里面更详细的日志,目前看来你给出的log只显示了serving worker向coordinator注册了,但是没有显示自己处于ready状态。只有当serving worker处于ready之后,相关的service port才可以被访问。 @Homura2333

更详细的log也只能看到这些:

image

还有什么其他方法能看到更有用的log吗?

Homura2333 commented 1 year ago

进入容器内部,/serving_workdir/package/bin下的log如下:

image
goldenleaves commented 1 year ago

@Homura2333 看起来是serving worker只是向coordinator注册了,但是没有拿到init info,因此根本没有启动,能够把coordinator的日志也贴一下嘛

Homura2333 commented 1 year ago

@Homura2333 看起来是serving worker只是向coordinator注册了,但是没有拿到init info,因此根本没有启动,能够把coordinator的日志也贴一下嘛

image
goldenleaves commented 1 year ago

@Homura2333 从coordinator的日志来看serving worker的启动流程是正常的,但是init之后的信息并没有出现,说明serving worker在init阶段卡住或者出现了错误,建议检查一下是不是设置的port或者k8s存储出现冲突之类的原因,然后删掉这个release重新拉起试一试。

KaisennHu commented 1 year ago

也是在搭建DGS时,执行完以下命令后,DGS相关pod都error。 执行命令如下: helm install dgs-u2i DGS/dgs --set frontend.ingressHostName="dynamic-graph-service.info" --set-file graphSchema=./conf/u2i/schema.u2i.json --set kafka.dl2spl.servers=[localhost:9092] --set kafka.dl2spl.topic="record-batches" --set kafka.dl2spl.partitions=4 --set kafka.spl2srv.servers=[localhost:9092] --set kafka.spl2srv.topic="sample-batches" --set kafka.spl2srv.partitions=4 --set glog.toConsole=true pod状态如下: image pod的log显示,并没有对应的目录,例如/coordinator_workdir、/serving_workdir、/sampling_workdir等: image 想请问这个问题应该如何解决?是否是因为容器镜像有问题?

goldenleaves commented 1 year ago

也是在搭建DGS时,执行完以下命令后,DGS相关pod都error。 执行命令如下: helm install dgs-u2i DGS/dgs --set frontend.ingressHostName="dynamic-graph-service.info" --set-file graphSchema=./conf/u2i/schema.u2i.json --set kafka.dl2spl.servers=[localhost:9092] --set kafka.dl2spl.topic="record-batches" --set kafka.dl2spl.partitions=4 --set kafka.spl2srv.servers=[localhost:9092] --set kafka.spl2srv.topic="sample-batches" --set kafka.spl2srv.partitions=4 --set glog.toConsole=true pod状态如下: image pod的log显示,并没有对应的目录,例如/coordinator_workdir、/serving_workdir、/sampling_workdir等: image 想请问这个问题应该如何解决?是否是因为容器镜像有问题?

@Homura2333 ,看起来是pod里面的container没有成功下载运行相关的package,你可以在你的k8s集群中执行wget https://graphlearn.oss-cn-hangzhou.aliyuncs.com/package/dgs-built-1.0.0.tgz确认是否能够下载这个pacakge,或者进一步排查网络问题。