shikanon / kubeflow-manifests

kubeflow国内一键安装文件
GNU General Public License v3.0
337 stars 117 forks source link

secret "mlpipeline-minio-artifact" not found #70

Closed Jason0816 closed 2 years ago

Jason0816 commented 2 years ago

你好,首先感谢提供的安装脚本,目前已经安装成功,并运行了pipeline,不过我在运行时遇到了这个问题: kubeflow-user-example-com下的pod一直处于ContainerCreating状态,查看日志: MountVolume.SetUp failed for volume "mlpipeline-minio-artifact" : secret "mlpipeline-minio-artifact" not found 然后我发现在namespace:kubeflowkubeflow-user-example-com下都没有这个secret,导致运行pipeline失败,我手动在这两个namespace下创建了secret,之后就可以运行成功了,请问这是什么导致的呢?

是否和Deployment:kubeflow-pipelines-profile-controller有关呢

cluster版本: kindest/node:v1.17.17
containerRuntimeExecutor: pns
shikanon commented 2 years ago

@wenguang0816 是的,是kubeflow-pipelines-profile-controller 创建的,你可以看看他们日志看抱什么错误: https://github.com/shikanon/kubeflow-manifests/blob/de266ce16ed2e453b10db1e8c623fe257a0da4f4/patch/pipeline-env-platform-agnostic-multi-user.yaml#L260

Jason0816 commented 2 years ago

我重新安装了017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml,莫名其妙的就可以生成secret,现在可以正常运行了,感谢

Jason0816 commented 2 years ago

我按照readme的教程重新安装了一遍,发现依然会出现同样的问题,只有在执行

kubectl delete -f pipeline-env-platform-agnostic-multi-user.yaml
kubectl apply -f pipeline-env-platform-agnostic-multi-user.yaml

之后才可以,不知道什么原因

ligh2012 commented 2 years ago

我重新安装了017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml,莫名其妙的就可以生成secret,现在可以正常运行了,感谢

您好,我也重新执行了这两个文件。然后运行pipeline示例,第一种尝试:设置pvc时一直显示pending。第二种尝试:进入kubeflow利用jupyter创建了pvc,将pipeline示例中的kubeflow-test-pv替换为新的pvc,但是还是失败,MountVolume.SetUp failed for volume "docker-sock" : hostPath type check failed: /var/run/docker.sock is not a socket file

Jason0816 commented 2 years ago

我重新安装了017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml,莫名其妙的就可以生成secret,现在可以正常运行了,感谢

您好,我也重新执行了这两个文件。然后运行pipeline示例,第一种尝试:设置pvc时一直显示pending。第二种尝试:进入kubeflow利用jupyter创建了pvc,将pipeline示例中的kubeflow-test-pv替换为新的pvc,但是还是失败,MountVolume.SetUp failed for volume "docker-sock" : hostPath type check failed: /var/run/docker.sock is not a socket file

  1. 关于/var/run/docker.sock is not a socket file这个问题,作者仓库docs/introduction.md内有说明:

    由于我们的kubeflow是基于kind上构建的,容器运行时用的containerd,而workflow默认的pipeline执行器是docker,因此有些特性不兼容

  2. pending的问题我不太清楚

ligh2012 commented 2 years ago

我重新安装了017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml,莫名其妙的就可以生成secret,现在可以正常运行了,感谢

您好,我也重新执行了这两个文件。然后运行pipeline示例,第一种尝试:设置pvc时一直显示pending。第二种尝试:进入kubeflow利用jupyter创建了pvc,将pipeline示例中的kubeflow-test-pv替换为新的pvc,但是还是失败,MountVolume.SetUp failed for volume "docker-sock" : hostPath type check failed: /var/run/docker.sock is not a socket file

1. 关于`/var/run/docker.sock is not a socket file`这个问题,作者仓库`docs/introduction.md`内有说明:

1、那作者的pipeline程序你能正常运行吗?我需要使用pipeline功能,如果有其他方式可以运行,方便指导一下吗? 2、jupyter notebooke在创建时不能选择GPU这个问题,可以解决吗? 谢谢啦

Jason0816 commented 2 years ago

我重新安装了017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml,莫名其妙的就可以生成secret,现在可以正常运行了,感谢

您好,我也重新执行了这两个文件。然后运行pipeline示例,第一种尝试:设置pvc时一直显示pending。第二种尝试:进入kubeflow利用jupyter创建了pvc,将pipeline示例中的kubeflow-test-pv替换为新的pvc,但是还是失败,MountVolume.SetUp failed for volume "docker-sock" : hostPath type check failed: /var/run/docker.sock is not a socket file

1. 关于`/var/run/docker.sock is not a socket file`这个问题,作者仓库`docs/introduction.md`内有说明:

1、那作者的pipeline程序你能正常运行吗?我需要使用pipeline功能,如果有其他方式可以运行,方便指导一下吗? 2、jupyter notebooke在创建时不能选择GPU这个问题,可以解决吗? 谢谢啦

我没有运行作者的pipeline,但是我运行了成功了自己写的pipeline,我也是新手,可能无法帮助你

shikanon commented 2 years ago

@ligh2012 这个kubeflow 的pipeline 就是用的 argo 实现的,你的pvc 如果一直在 pending ,说明应该是 storageClass 的问题,CSI没办法创建默认卷。如果想用官方的 pipeline 案例可以在基于 docker 的 k8s 上安装 kubeflow。

Jason0816 commented 2 years ago

@wenguang0816 是的,是kubeflow-pipelines-profile-controller 创建的,你可以看看他们日志看抱什么错误:

https://github.com/shikanon/kubeflow-manifests/blob/de266ce16ed2e453b10db1e8c623fe257a0da4f4/patch/pipeline-env-platform-agnostic-multi-user.yaml#L260

我偶尔会出现issures:31的问题,我感觉是这个导致的secret没有生成,但重装017-pipeline-env-platform-agnostic-multi-user.yamlpipeline-env-platform-agnostic-multi-user.yaml之后,有时会正常,有时不会