Open nailcui opened 12 months ago
看完故障复盘报告后,总感觉似曾相识,查询 《SRE:Google运维解密》找到了这个案例:
在一项常规自动化测试中,该测试针对同一个集群(马上即将退役的)发送了两个连续的下线请求(turndown)。在处理第二个下线请求时,自动化系统中的一个非常隐蔽的Bug将全球所有数据中心的所有机器加到了磁盘销毁(diskerase)的队列中,这导致硬盘数据被清空。细节请参看第7章的“自动化:允许大规模故障发生”材料。
本案例其实应该分两部分来看:
1、出现问题的原因
2、后续恢复
故障复盘、分析等文档收集