Open Hugh-yw opened 3 weeks ago
@Hugh-yw
2、kubectl exec 进入Pod,发现显存是切分ok的
这里说的 Pod 是哪个 Pod,贴一下 get -o yaml 的输出
通过jupyter UI访问发现资源没有进行切分
这里说的没有切分的 Pod 是哪个 Pod,贴一下 get -o yaml 的输出
1、JupyterHub deploy资源配置:
resources: limits: cpu: "64" memory: 512Gi nvidia.com/gpu: "8" nvidia.com/gpucores: "50"
然后这里看起来应该是 JupyterHub 本身的 Pod 的资源请求和限制,应该与为每个用户创建的 独立的 Jupyter Notebook Pod 没有关系吧,如果是这样的话可能需要有地方配置 每个用户 Notebook Pod 的资源配置
因为如果 每个用户 Notebook Pod 的资源配置 没有 GPU 相关资源的限制,是默认可以看到所有 GPU 资源的
@Hugh-yw
2、kubectl exec 进入Pod,发现显存是切分ok的
这里说的 Pod 是哪个 Pod,贴一下 get -o yaml 的输出
通过jupyter UI访问发现资源没有进行切分
这里说的没有切分的 Pod 是哪个 Pod,贴一下 get -o yaml 的输出
1、JupyterHub deploy资源配置:
resources: limits: cpu: "64" memory: 512Gi nvidia.com/gpu: "8" nvidia.com/gpucores: "50"
然后这里看起来应该是 JupyterHub 本身的 Pod 的资源请求和限制,应该与为每个用户创建的 独立的 Jupyter Notebook Pod 没有关系吧,如果是这样的话可能需要有地方配置 每个用户 Notebook Pod 的资源配置
回复1: Kubectl exec -it 进入的就是Jupyterhub pod(是可以提供多用户协作)
回复2: 访问jupyter ui发现没有资源切分,访问的是jupyterhub服务本身(就一个deploy资源--->1个pod),按理来说他不应该看到全局的资源才对,8卡的算力和显存是我做了切分的
因为如果 每个用户 Notebook Pod 的资源配置 没有 GPU 相关资源的限制,是默认可以看到所有 GPU 资源的
部署的jupyterhub服务只有一个pod,这个服务本身是支持多用户协作开发的,通过kubectl exec -it 进去查看资源限制是ok的,但访问jupyter发现是没有隔离的,可以看到全局资源
通过 kubectl exec 检查 JupyterHub 服务资源限制符合预期,因为你配置的是 JupyterHub 的 deploy,这没问题
但是 JupyterHub 的服务本质是一个管理和调度的控制平面,实际上是给每个用户都创了一个 独立的 Jupyter Notebook 环境 (一个 Pod),这个事情主要是 JupyterHub 的 Spawner 组件做的,我在官方的 helm 里面找到了这个 c.KubeSpawner.namespace = os.environ.get("POD_NAMESPACE", "default"),看起来是会默认把用户的 Pod 创建在 default ns 下,可以找找是不是有相关的 Pod
如果确实有,那么就得找找有没有地方可以配置 用户 Pod 的 resources.limits
如果最后确认 kubectl exec -it 进去
的 Pod 和用户 Jupyter 连入的 Pod 确实是同一个,那么再提供一下安装的 helm chart 在哪里找到,以及版本,安装的命令或者文档连接最好也提供一下,我目前找到的 chart 和安装文档如下,我这边才好复现一下
https://hub.jupyter.org/helm-chart/#jupyterhub https://z2jh.jupyter.org/en/stable/jupyterhub/installation.html#initialize-a-helm-chart-configuration-file
What happened: 使用vgpu创建JupyterHub服务,发现只有通过kubectl exec ... 查询nvidia-smi 显存是切分符合预期的,但通过jupyter UI访问发现资源没有进行切分,并且多用户下执行nvidia-smi报错,详情见附件截图
What you expected to happen:
How to reproduce it (as minimally and precisely as possible):
Anything else we need to know?:
nvidia-smi -a
on your host+-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
2、kubectl exec 进入Pod,发现显存是切分ok的