cyningsun / blog-sidecar

blog sidecar
0 stars 0 forks source link

译|My Philosophy On Alerting #119

Open cyningsun opened 3 years ago

cyningsun commented 3 years ago

https://www.cyningsun.com/05-05-2021/my-philosophy-on-alerting-cn.html

基于我在谷歌做 SRE(网站可靠性工程师)时的观察

摘要为了值班轮换更加愉快,在审核或编写告警规则时,请考虑以下事项:

紧急呼叫应该是紧急的、重要的、可操作的、真正的 应当代表服务正在或即将发生的问题。 力求消除噪音警报 —— 过度监控比欠监控更难解决。 问题应该几乎总能分为以下几类:基本功能和可用性、延迟、正确性(数据的完整性、时新性、持久性)、特性