shikanon / kubeflow-manifests

kubeflow国内一键安装文件
GNU General Public License v3.0
341 stars 118 forks source link

pipeline无法使用 #28

Closed JimmyCXXQ closed 3 years ago

JimmyCXXQ commented 3 years ago

登陆界面后,在主界面可以看到pipeline是Error retrieving Pipelines,点击后是upstream unhealthy image 我看到您的截图也是如此,请问是镜像有什么问题还是别的原因呢?

shikanon commented 3 years ago

@JimmyCXXQ 这里不影响,你看是否可以建立一个pipeline,可以参考给出来的组件介绍教程:https://github.com/shikanon/kubeflow-manifests/blob/master/docs/introduction.md

JimmyCXXQ commented 3 years ago

@JimmyCXXQ 这里不影响,你看是否可以建立一个pipeline,可以参考给出来的组件介绍教程:https://github.com/shikanon/kubeflow-manifests/blob/master/docs/introduction.md

我尝试了几次发现会有一些问题: 1、 istio ingress gateway pod的问题,相关kubeflow issues连接: 2、二次运行python install 的时候会删除掉auth这个命名空间且无法重建,只能手工重新 create pod 3、镜像拉取问题,Failed to pull image "gcr.io/ml-pipeline/frontend:1.5.0-rc.2": rpc error: code = Unknown desc = Error response from daemon: Get https://gcr.io/v2/: net/http: request canceled while waiting for connection

以上问题都会导致 kubeflow不可用,请教一下是否跟创建的顺序有关?

shikanon commented 3 years ago

@JimmyCXXQ 不知道你为什么会出现gcr.io/ml-pipeline/frontend的镜像,你尝试如下操作:

  1. pull 最新的分支
  2. 删除旧资源: kubectl delete -f manifest1.3
  3. 重新运行安装命令: python install.py
shikanon commented 3 years ago

ml-pipeline/frontend 这个镜像应该是已经被脚本替换了的,可以看这里的源码

JimmyCXXQ commented 3 years ago

ml-pipeline/frontend 这个镜像应该是已经被脚本替换了的,可以看这里的源码

我在源码目录下创建了一个tmp临时目录,然后再修改install.py,最后一个个create yaml文件,kubeflow基本上可以构建,我怀疑有执行顺序问题,假设某个pod还没build起来的话,下一个pod需要与这个pod通信的时候那么下一个pod就会创建失败

shikanon commented 3 years ago

@JimmyCXXQ 不会有这个问题,只要按顺序安装就可以了,主要是因为crd资源,这里面的 pod 失败会自动重试的