Open cyningsun opened 3 years ago
https://www.cyningsun.com/05-05-2021/my-philosophy-on-alerting-cn.html
基于我在谷歌做 SRE(网站可靠性工程师)时的观察
摘要为了值班轮换更加愉快,在审核或编写告警规则时,请考虑以下事项:
紧急呼叫应该是紧急的、重要的、可操作的、真正的 应当代表服务正在或即将发生的问题。 力求消除噪音警报 —— 过度监控比欠监控更难解决。 问题应该几乎总能分为以下几类:基本功能和可用性、延迟、正确性(数据的完整性、时新性、持久性)、特性
https://www.cyningsun.com/05-05-2021/my-philosophy-on-alerting-cn.html
基于我在谷歌做 SRE(网站可靠性工程师)时的观察
摘要为了值班轮换更加愉快,在审核或编写告警规则时,请考虑以下事项:
紧急呼叫应该是紧急的、重要的、可操作的、真正的 应当代表服务正在或即将发生的问题。 力求消除噪音警报 —— 过度监控比欠监控更难解决。 问题应该几乎总能分为以下几类:基本功能和可用性、延迟、正确性(数据的完整性、时新性、持久性)、特性