yunionio / cloudpods

A cloud-native open-source unified multi-cloud and hybrid-cloud platform. 开源、云原生的多云管理及混合云融合平台
https://www.cloudpods.org
Apache License 2.0
2.6k stars 533 forks source link

[BUG] 新建虚拟机 部署失败 #21306

Closed huhaiqwer closed 3 weeks ago

huhaiqwer commented 1 month ago

问题描述/What happened:

新建虚拟机 部署失败 ,报错如下 image

点击同步,然后再同步一下状态,就这样正常运行了,但是第一次新建的时候,必现这个报错

环境/Environment: OS: openEuler 22.03 SP3 version: v3.10.8

huhaiqwer commented 1 month ago

查看日志 如下 image

huhaiqwer commented 1 month ago

image

wanyaoqi commented 1 month ago

@huhaiqwer 什么版本,host-deployer 和onecloud-operator版本可能对不上

huhaiqwer commented 1 month ago

@huhaiqwer 什么版本,host-deployer 和onecloud-operator版本可能对不上 host-deployer : v3.10.8 onecloud-operator: v3.10.8

huhaiqwer commented 1 month ago

@wanyaoqi 大佬,请问这个 22223 端口,是什么服务的,难道是 onecloud-operator 没有拉全所有的服务吗?

wanyaoqi commented 1 month ago

@wanyaoqi 你看下onecloud-operator是否有报错,这个原因是因为host-deployer 没开启 hostNetwork,需要operator更新一下 daemonset,可能是operator没更新

huhaiqwer commented 1 month ago

@wanyaoqi 我看了下 host-deployer 这个 ds 发现它并没有 开启 hostNetwork ,请问这个需要手动开启吗? 我们生产环境的 host-deployer 也是没有开启 hostNetwork的 但是 可以正常使用。查看 operator 的日志,发现并没有什么明显错误 image

huhaiqwer commented 1 month ago

@wanyaoqi 我在计算节点宿主机上 发现 22223 端口并没有在监听呀。

wanyaoqi commented 1 month ago

@huhaiqwer 版本不一样吧,新版本部署是通过起虚机端口连接上去部署的,要求开启hostNetwork

huhaiqwer commented 1 month ago

@wanyaoqi 大佬你指的是。host-deployeroperator 的版本不一致导致的吗?

wanyaoqi commented 1 month ago

@wanyaoqi 大佬你指的是。host-deployeroperator 的版本不一致导致的吗?

@huhaiqwer 不是,我说生产环境和这个环境。这个环境我建议升级一下,升级到最新的3.10

huhaiqwer commented 1 month ago

@wanyaoqi ok,感谢大佬,还有一个问题请教以下,我这个环境部署完成之后 缺少了以下 pods,请问这是什么原因,这些组件主要是用来干嘛的,是否影响整体服务运行。 image

wanyaoqi commented 1 month ago

@huhaiqwer 这些是日志收集和minio相关的,不影响服务

huhaiqwer commented 1 month ago

@wanyaoqi 继上次的问题 现在新建虚拟机 一直卡在 分配磁盘上面,并且新建虚拟机的时候,到了分配磁盘这一步,会自动重启宿主机。我查询机器日志也没有发现 重启的原因 请问这个问题这么排查,大佬 image

wanyaoqi commented 1 month ago

@huhaiqwer 这个理论上应该不会导致宿主机重启,你需要排查一下宿主机重启的原因,看看dmesg, 重试一下看看能否复现

huhaiqwer commented 1 month ago

我发现了 新建虚拟机的时候,如果 勾选 安装 agent 监控,就会重新上述的错误,请问,安装 agent 监控 会涉及到重启 宿主机吗

image

wanyaoqi commented 1 month ago

@huhaiqwer 不会的,建议多试几次,看看是不是必现的,我觉得可能是别的原因,恰好碰到了

huhaiqwer commented 1 month ago

@wanyaoqi 大佬,请问计算机点拉起的虚拟机使用 vpc 网络,即 overlay网络后,正常情况下宿主机可以 ping 通虚拟机吗

huhaiqwer commented 1 month ago

@wanyaoqi 大佬。昨天那个宿主机重启的问题我找到必现的一个步骤了,有一个 qcow2 镜像,使用这个镜像拉起虚拟机,宿主机就会重启,重新上传这个镜像,宿主机也会重启。 image

huhaiqwer commented 1 month ago

可以看到 上传快完成的时候, CONNECTION_CLOSED 了,我查询 dmesg 也没有有用的信息

image

dmesg 信息如下 image

wanyaoqi commented 1 month ago

@huhaiqwer 这个镜像有什么特别吗,宿主机的配置是什么

huhaiqwer commented 1 month ago

@wanyaoqi 这个宿主机就是从你们官方下载的 centos7 的镜像,宿主机配置如下 没什么特别的,现在就是不知道如何排查 宿主机重启的原因 。。。 image

image

image

huhaiqwer commented 1 month ago

cloudpods版本是 v3.10.8

huhaiqwer commented 1 month ago

@wanyaoqi 大佬,我捕捉了一下内核日志,麻烦分析一下 这是导致宿主机重启的原因吗? OS: openEuler 22.03 SP3 看日志 好像是 kubelet 引起的?

image

wanyaoqi commented 1 month ago

@wanyaoqi 大佬,我捕捉了一下内核日志,麻烦分析一下 这是导致宿主机重启的原因吗? OS: openEuler 22.03 SP3 看日志 好像是 kubelet 引起的?

image

@huhaiqwer 看起来是 kubelet 触发的,好像是读文件系统导致的

huhaiqwer commented 1 month ago

@wanyaoqi 大佬,那这个问题咋解决,能麻烦帮忙提供一下解决思路吗。。。 我看拉起虚拟机或者上传系统镜像的时候,有很大概率会触发重启

wanyaoqi commented 1 month ago

@huhaiqwer 感觉是宿主机内核有问题,换个内核或者操作系统试试

huhaiqwer commented 1 month ago

@wanyaoqi 宿主机内核时 openEuler 22.03 SP3 5.10.0-230.0.0.132.oe2203sp3.x86_64 你们官方支持的欧拉是这个内核吗

wanyaoqi commented 1 month ago

https://github.com/yunionio/cloudpods/issues/21366