Closed binchoo closed 8 months ago
웹, 애플리케이션, 데이터베이스 cpu 사용량은 정말 낮아도 너무 낮았다.
(p.199) / 요청 처리 스레드는 거의 모두 바빴다. 대부분 3분 이상 요청을 처리하느라 3분 이상 일하고 있었다.
(p.199)
대부분은 뒷단을 호출하기 위한 연결이 생성되길 기다리고 있었다. 이 스레드들은 모두 자원 풀에서 블록되었고 이 블록에는 시간 제한이 없었다.
(p.200)
필자는 만약을 위해 가족들의 짐으로 가득한 자동차에 노트북을 쑤셔 넣었다.
(p.195)
📘 응답 시간은 언제나 후행 지표다. 우리는 종료된 응답의 응답 시간만을 측정할 수 있다. (중략) 완료되지 않은 요청은 절대 평균에 포함되지 않았다.
(p.199)
💬 응답 시간 통계의 함정을 짚어주기에 뜻깊었습니다. 응용에 끝나지 않는 요청 뿐이라면 응답 시간은 0초로 기록될 테니까. 여기에 대비하려면 현재 진행중인 요청 수 메트릭도 정의하고 수집해야 할 것 같네요. 관련해서 관측하고 계신가요? (태현 님의 Timeout을 설정해 평균이 그쪽으로 치우치는지 의견 감사합니다)
http.server.active_requests
가 추적되는 점은 확인해 보았습니다 :)
📘 담당 엔지니어는 CPU 사용량이 너무 높다는 알림을 여러 번 받았지만 이전까지 CPU 사용량이 순간적으로 튀었을 뿐 문제가 아닌 것으로 판명된 알람을 정기적으로 받았기 때문에 이번에도 응답하지 않은 것이다.
(p.202)
💬 False-Posivite 알림 정말 골치가 아픈 것 같습니다. 뻥 알림에 노출되면 관제 담당자가 태만해지기 마련인데, 그렇다고 알림이 민감하지 않게 역치를 넉넉히 했다가 실제 이슈 상황을 너무 늦게 알아챌 수도 있고... 어렵네요. 태현 님 False-Positive 사례에서도 어떻게 조치가 잘 되었을까요?
주제
6장 - 사례 연구: 램프 속 우주의 힘을 읽고 내용을 요약하거나,
중요✨ 하다고 생각하는 키워드 및 관련 설명을 코멘트로 달아주세요.
연관 챕터
18
@caffeine-library/readers-release-everything