nacos-group / nacos-k8s

This project contains a Nacos Docker image meant to facilitate the deployment of Nacos on Kubernetes using StatefulSets.
578 stars 468 forks source link

nacos 长时间处于 starting #414

Open ldsdsy opened 1 year ago

ldsdsy commented 1 year ago

同样的 operator 和 chart 包去部署 nacos 集群,在两套环境里的表现完全不一样,环境一里面部署,扩容都很正常,但环境二里面很容易失败,部署失败后重启 pod 有概率会成功,扩容操作肯定会失败,看节点日志,nacos 一直在 starting。这两套环境的区别,主要是环境一用的 nfs 持久化,环境二用的 Carina,不清楚是不是跟这有关系。有什么可能的原因可供参考吗?

wilsonwu commented 1 year ago

这个问题有点复杂,最好是能有日志辅助排查,不排除的是环境本身问题。

ldsdsy commented 1 year ago

需要哪些日志呢,如果是 nacos 节点的日志的话,就是一直打印 2023-05-17 14:16:36,855 INFO Nacos is starting... 当我调大一些内存资源时,环境二的部署成功概率提高了,扩容还是不行,扩容不行的原因就是新增的 nacos 节点一直处于 starting,如果重启,是有可能成功的,就感觉不是很稳定。

wilsonwu commented 1 year ago

嗯 目前给的cpu和内存是多少?感觉现象很像内存不够。

ldsdsy commented 1 year ago

刚开始两个环境都是 1C2G,然后给环境二里的改成 1C3G。都设置了 JVM_XMX:2g JVM_XMS:2g JVM_XMN:1g 不知道跟这有没有关系。

wilsonwu commented 1 year ago

看样子资源也还是够的,或者你尝试一下给2c4g看看启动效率是不是会有大幅度提升,然后再削减资源看是不是资源产生的影响。

ldsdsy commented 1 year ago

尝试了一下 2c4g ,扩容的时候还是存在部分节点一直处于 starting 。我发现部署的时候节点都是同时启动的,但扩容时的顺序是新增节点先启动,然后旧节点再逆序重启,跟这个有关系吗?

wilsonwu commented 1 year ago

应该和这个问题没有关系,滚动升级是一个正常机制,或者再尝试增加资源看看?我也没有什么好思路了。

ldsdsy commented 1 year ago

好的,我再试试看。