caffeine-library / release-everything

'Release의 모든 것'을 읽는 스터디
3 stars 0 forks source link

[keyword] 6장 - 사례 연구: 램프 속 우주의 힘 #19

Closed binchoo closed 8 months ago

binchoo commented 8 months ago

주제

6장 - 사례 연구: 램프 속 우주의 힘을 읽고 내용을 요약하거나,
중요✨ 하다고 생각하는 키워드 및 관련 설명을 코멘트로 달아주세요.

연관 챕터

18


@caffeine-library/readers-release-everything

kth990303 commented 8 months ago

웹, 애플리케이션, 데이터베이스 cpu 사용량은 정말 낮아도 너무 낮았다. (p.199) / 요청 처리 스레드는 거의 모두 바빴다. 대부분 3분 이상 요청을 처리하느라 3분 이상 일하고 있었다. (p.199)

대부분은 뒷단을 호출하기 위한 연결이 생성되길 기다리고 있었다. 이 스레드들은 모두 자원 풀에서 블록되었고 이 블록에는 시간 제한이 없었다. (p.200)

필자는 만약을 위해 가족들의 짐으로 가득한 자동차에 노트북을 쑤셔 넣었다.(p.195)

JasonYoo1995 commented 8 months ago

6.1 첫 번째 크리스마스

6.2 맥박 확인

6.3 추수감사절

6.4 블랙 프라이데이

6.5 생명 징후

6.6 진단 테스트

6.7 전문가 호출

6.8 처치 방안 비교

6.9 처치 결과

6.10 휴식 시간

binchoo commented 8 months ago

📘 응답 시간은 언제나 후행 지표다. 우리는 종료된 응답의 응답 시간만을 측정할 수 있다. (중략) 완료되지 않은 요청은 절대 평균에 포함되지 않았다. (p.199)

💬 응답 시간 통계의 함정을 짚어주기에 뜻깊었습니다. 응용에 끝나지 않는 요청 뿐이라면 응답 시간은 0초로 기록될 테니까. 여기에 대비하려면 현재 진행중인 요청 수 메트릭도 정의하고 수집해야 할 것 같네요. 관련해서 관측하고 계신가요? (태현 님의 Timeout을 설정해 평균이 그쪽으로 치우치는지 의견 감사합니다)

📘 담당 엔지니어는 CPU 사용량이 너무 높다는 알림을 여러 번 받았지만 이전까지 CPU 사용량이 순간적으로 튀었을 뿐 문제가 아닌 것으로 판명된 알람을 정기적으로 받았기 때문에 이번에도 응답하지 않은 것이다. (p.202)

💬 False-Posivite 알림 정말 골치가 아픈 것 같습니다. 뻥 알림에 노출되면 관제 담당자가 태만해지기 마련인데, 그렇다고 알림이 민감하지 않게 역치를 넉넉히 했다가 실제 이슈 상황을 너무 늦게 알아챌 수도 있고... 어렵네요. 태현 님 False-Positive 사례에서도 어떻게 조치가 잘 되었을까요?