nailcui / 100000-whys

Hundred Thousand Whys
0 stars 0 forks source link

你经历过哪些线上故障,有什么经验或者教训? #4

Open nailcui opened 12 months ago

nailcui commented 12 months ago

故障复盘、分析等文档收集

nailcui commented 12 months ago

AWS 的 S3 故障回顾和思考 - coolshell

nailcui commented 8 months ago

GitLab 运维因疲劳误删数据导致宕机超24小时

nailcui commented 7 months ago

关于语雀 23 日故障的公告

看完故障复盘报告后,总感觉似曾相识,查询 《SRE:Google运维解密》找到了这个案例:

在一项常规自动化测试中,该测试针对同一个集群(马上即将退役的)发送了两个连续的下线请求(turndown)。在处理第二个下线请求时,自动化系统中的一个非常隐蔽的Bug将全球所有数据中心的所有机器加到了磁盘销毁(diskerase)的队列中,这导致硬盘数据被清空。细节请参看第7章的“自动化:允许大规模故障发生”材料。

本案例其实应该分两部分来看:

1、出现问题的原因

2、后续恢复