furuhashilab / README

古橋研究室(古橋ゼミ)に興味のある学生は、最初に読んでください。これを熟読できていない学生は指導対象から外します。
http://furuhashilab.com/
Creative Commons Attribution 4.0 International
17 stars 3 forks source link

ポストモーテム #31

Open mapconcierge opened 3 years ago

mapconcierge commented 3 years ago

ポストモーテムを理解する

https://qiita.com/an_sony/items/0565ad980f9097c76d11

PagerDuty Incident Response Documentation

mapconcierge commented 3 years ago

!!! note "ガイドライン" このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。

ポストモーテムのオーナー: ここにはあなたの名前が入ります。 ミーティングの対象: インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください 通話の記録: インシデントの通話の記録へのリンクを貼る。

オーバービュー

短い1、2文で、インシデントの原因や、タイムライン、および影響などを要約します。 たとえば「8月9日の朝、プライマリデータベースマシンの暴走により1分間のSEV-1が発生しました。この遅延により、0.024%のPagerDutyアラートがSLA違反となりました。」

何が起こったか

何が起こったかを簡潔に書く

根本原因

問題を引き起こした全ての条件を書く。問題を悪化させるようなアクションをしても、対応中に犯したミスから学ぶために全て書く。

解決

何によって問題が解決したか書く。一時的な措置を施した場合は、長期的な対策と共に書く。

影響

具体的な数字で正確に書く

SEV-1の時間 ?分
SEV-2の時間 ?分
SLA違反となった通知 ??% (?? 中 ??)
破棄された/処理されなかったイベント ??% (?? 中 ??) 通常は0であるべきだが確認する
影響を受けたアカウント ??
影響を受けたユーザー数 ??
発生したサポートリクエスト ?? 関連するチケットへのリンク

対応者

タイムライン

重要な時刻を書く。(1) 原因が発生した時刻、 (2) ページされた時刻、 (3) ステータスページが更新された時刻(つまり外部告知された時刻)、(4) 重要なアクションを実行した時刻、(5) SEV2/SEV-1が終わった時刻、(6) タイムスタンプが取得されたツール、ログへのリンク

Time (UTC) Event Data Link

どうだったか?

うまくいったこと

うまくいかなかったこと

アクションアイテム

_各アクションアイテムはJIRAチケットの形式で、それぞれのチケットは "sev1YYYYMMDD" と "sev1" のタグを持ちます。 アクションアイテムは (1) 再発防止のための修正、(2) 問題が再発しても問題が小さくなるような措置、 (3) 内部メールやステータスページの更新などのポストモーテムの残り作業、 (4) インシデント対応プロセスの改善、などです。

メッセージ

内部メール

従業員に対するフォローアップです。ポストモーテムミーティングが終わった後すぐに送るべきです。メールにはインシデントの簡単な説明とwikiへのリンクを貼ります

何が起こったか、ポストモーテムへのページがどこにあるかを、簡単に要約します

外部告知

インシデントに関してstatus.pagerduty.comに掲載することです。顧客に何を伝えて、どう謝罪しますか?(謝罪は定型文ではなく真摯に書くべきです)

概要 何が起こったか これに対して私たちは何をしている