Closed Homura2333 closed 1 year ago
Log显示:
看起来没什么问题
顺便一提,执行
export DgsServiceIP=$(kubectl get ingress --namespace default dgs-u2i-frontend-ingress --output jsonpath='{.status.loadBalancer.ingress[0].ip}')
echo $DgsServiceIP
也无法输出service ip,是空的。
执行kubectl get ingress dgs-u2i-frontend-ingress
之后返回如下:
ADDRESS字段是空的。这又是为什么呢?是否跟我没有正确配置好nginx controller有关系呢?
执行kubectl get svc
返回如下:
有没有人能帮助我?
能否给出serving worker里面更详细的日志,目前看来你给出的log只显示了serving worker向coordinator注册了,但是没有显示自己处于ready状态。只有当serving worker处于ready之后,相关的service port才可以被访问。 @Homura2333
能否给出serving worker里面更详细的日志,目前看来你给出的log只显示了serving worker向coordinator注册了,但是没有显示自己处于ready状态。只有当serving worker处于ready之后,相关的service port才可以被访问。 @Homura2333
更详细的log也只能看到这些:
还有什么其他方法能看到更有用的log吗?
进入容器内部,/serving_workdir/package/bin下的log如下:
@Homura2333 看起来是serving worker只是向coordinator注册了,但是没有拿到init info,因此根本没有启动,能够把coordinator的日志也贴一下嘛
@Homura2333 看起来是serving worker只是向coordinator注册了,但是没有拿到init info,因此根本没有启动,能够把coordinator的日志也贴一下嘛
@Homura2333 从coordinator的日志来看serving worker的启动流程是正常的,但是init之后的信息并没有出现,说明serving worker在init阶段卡住或者出现了错误,建议检查一下是不是设置的port或者k8s存储出现冲突之类的原因,然后删掉这个release重新拉起试一试。
也是在搭建DGS时,执行完以下命令后,DGS相关pod都error。
执行命令如下:
helm install dgs-u2i DGS/dgs --set frontend.ingressHostName="dynamic-graph-service.info" --set-file graphSchema=./conf/u2i/schema.u2i.json --set kafka.dl2spl.servers=[localhost:9092] --set kafka.dl2spl.topic="record-batches" --set kafka.dl2spl.partitions=4 --set kafka.spl2srv.servers=[localhost:9092] --set kafka.spl2srv.topic="sample-batches" --set kafka.spl2srv.partitions=4 --set glog.toConsole=true
pod状态如下:
pod的log显示,并没有对应的目录,例如/coordinator_workdir、/serving_workdir、/sampling_workdir等:
想请问这个问题应该如何解决?是否是因为容器镜像有问题?
也是在搭建DGS时,执行完以下命令后,DGS相关pod都error。 执行命令如下:
helm install dgs-u2i DGS/dgs --set frontend.ingressHostName="dynamic-graph-service.info" --set-file graphSchema=./conf/u2i/schema.u2i.json --set kafka.dl2spl.servers=[localhost:9092] --set kafka.dl2spl.topic="record-batches" --set kafka.dl2spl.partitions=4 --set kafka.spl2srv.servers=[localhost:9092] --set kafka.spl2srv.topic="sample-batches" --set kafka.spl2srv.partitions=4 --set glog.toConsole=true
pod状态如下: pod的log显示,并没有对应的目录,例如/coordinator_workdir、/serving_workdir、/sampling_workdir等: 想请问这个问题应该如何解决?是否是因为容器镜像有问题?
@Homura2333 ,看起来是pod里面的container没有成功下载运行相关的package,你可以在你的k8s集群中执行wget https://graphlearn.oss-cn-hangzhou.aliyuncs.com/package/dgs-built-1.0.0.tgz
确认是否能够下载这个pacakge,或者进一步排查网络问题。
执行到这一步:
完成之后查看k8s的pods,发现有两个pods的STATUS显示running,但是READY一直都是0/1。
执行
kubectl describe pod
之后,返回以下信息:提示探针连接失败了,我在执行
curl 10.244.46.4:10000
之后也确实无法连接,但是看样子ip和端口应该是正确的。这可能会是什么问题呢?相关的配置文件我都没有修改过,是直接按照tutorial的指引跑的。