kubecube-io / KubeCube

KubeCube is an open source enterprise-level container platform
https://kubecube.io
Apache License 2.0
504 stars 69 forks source link

[Bug]跟ceph存储集群混合部署会无法正常运行kubecube #370

Open sawchen opened 7 months ago

sawchen commented 7 months ago

Describe the bug A clear and concise description of what the bug is. 可以使用中文。 场景一: 先决条件: 三台服务器搭建3节点,k8s 已部署v1.27.6,k8s已通过helm方式安装 metrics-server 同时三节点通过cephadm方式部署ceph存储集群,正常运行

操作 通过helm 方式安装kubecube 1、发现kubecube-monitoring-prometheus-node-exporter-XXX 9100端口与ceph自带节点监控服务冲突无法启动 通过修改ceph默认端口,让kubecube可以使用9100,解决

2、发现prometheus-kubecube-monitoring-prometheus-0 服务没有启动,也没拉取镜像等动作,监控服务相关如下

20240301095939

helm list -A 查询发现部分服务安装失败 kubecube-monitoring kubecube-monitoring 1 2024-02-29 08:48:09.902374875 +0000 UTC failed kubecube-monitoring-15.4.12 0.47.0
kubecube-thanos kubecube-monitoring 1 2024-02-29 08:48:58.754995455 +0000 UTC failed thanos-3.18.0 0.21.1

场景二 基于场景一无法正常使用kubecube情况,调整如下 三台服务器搭建3节点,k8s 已部署v1.27.6,k8s已通过helm方式安装 metrics-server cephadm集群卸载不启动

操作 1、通过helm 方式安装kubecube ,kubecube正常安装所有组件,并正常运行 2、使用cephadm安装ceph存储集群,初始化集群,并修改ceph自带节点监控服务端口为9111避免冲突。观察kubecube正常运行 3、使用ceph对每一台机进行存储硬盘初始化,启动OSD服务。此时对应主机上kubecube相关的pod出现crashoff/error,崩溃并且无法自动重启,而在这台机的其他pod,例如kube-proxy,kube-controller-manager等是正常的。 4、针对第3步,将问题服务器节点重启,则kubecube相关的pod,恢复正常,而ceph服务也是正常,OSD服务正常。 5、三个节点均是这种情况,ceph执行初始化OSD服务,对应的主机上的kubecube的pod就崩溃无法自动重启。然后整台服务器重启后,kubecube恢复正常,ceph正常,运行1天,暂时没有异常。

server(please complete the following information):