ccfos / nightingale

An all-in-one observability solution which aims to combine the advantages of Prometheus and Grafana. It manages alert rules and visualizes metrics, logs, traces in a beautiful web UI.
https://flashcat.cloud/docs/
Apache License 2.0
9.55k stars 1.39k forks source link

添加对数据源可用性的检测,当数据源在线时才会对齐进行监控 #2062

Open kubehan opened 1 month ago

kubehan commented 1 month ago
image

What would you like to be added: 当数据源不可用时候,n9e仍然会对不可用数据源对应的rule进行监测,这带来一定的消耗,是否可考虑仅对在线的数据源进行监测? Why is this needed: 目前管理了200+ Prometheus数据源,其中有很多数据源会时常断开,导致n9e 日志大量的Error

chenyunda218 commented 1 month ago

如果突然又可以連上了應不應該又自動重新監測呢?

laiwei commented 1 month ago
image

What would you like to be added: 当数据源不可用时候,n9e仍然会对不可用数据源对应的rule进行监测,这带来一定的消耗,是否可考虑仅对在线的数据源进行监测? Why is this needed: 目前管理了200+ Prometheus数据源,其中有很多数据源会时常断开,导致n9e 日志大量的Error

200+ Prometheus 集群,请问这是怎么一个用户场景,可以分享下吗,谢谢。

YIwanT commented 1 month ago

数据源都是内网互通吗???我现在使用异地机房的数据源就不能添加。强制验证。

kubehan commented 1 week ago

如果突然又可以連上了應不應該又自動重新監測呢?

需要监控,因此建议是定期去检测数据源可用性

kubehan commented 1 week ago

数据源都是内网互通吗???我现在使用异地机房的数据源就不能添加。强制验证。

数据源是分布在各机房的,不过都可以通过http进行访问

kubehan commented 1 week ago

集群,请问这是怎么一个用户场景,可以分享下吗,谢谢。

大量的私有云集群,一个集群一个Prometheus集群