kth990303 commented 9 months ago

주제

4장 - 안정성 안티 패턴'을 읽고 내용을 요약하거나,
중요✨ 하다고 생각하는 키워드 및 관련 설명을 코멘트로 달아주세요

연관 챕터

7

@caffeine-library/readers-release-everything

kth990303 commented 9 months ago

전체 애플리케이션에 대한 99.999% 신뢰성은 이제 충분하지 않다. 이 수준의 신뢰성이라면 매일 수천 명의 사용자가 실망하게 될 것이다. (p.70)

99.999% 라는 비율은 되게 높아보이는데, 절대적인 양으로 따지면 생각보다 수가 많다는 생각이 들어 경각심이 들더라고요. '새벽 시간대에 잠깐 API 레이턴시가 튀는 정도는 괜찮겠지?', '가끔 커넥션타임아웃 뜨는데 괜찮겠지? 백로그로 넘겨도 되겠지?' 와 같은 안일함은, 규모가 커질수록 일일이 챙기기 힘든데, 아이러니하게도 규모가 커질수록 위험할 수 있어서 정말 어려운 것 같습니다. (채용공고 우대사항에 괜히 대용량 트래픽 유경험자 라고 적혀있는게 아니구나 싶기도 하고요? ㅠㅠ)

~ 방화벽의 데이터베이스 쪽 트래픽이 전혀 없다는 것은 매우 중요한 단서였다.(p.80) 하지만 방화벽은 'ICMP 목적지 도달 불가'라는 메시지도 없이 이 패킷들을 계속 버리기만 했다.(p.82) 오라클에는 종료된 연결을 찾아내는 DCD(dead connection detection)란 기능이 있어서 클라이언트가 급작스럽게 작동이 중지되었는지 찾아낼 수 있다.(p.83)

DB 에 트래픽이 없는 건에 대해, DB 인스턴스가 죽은 것도 아니고 애플리케이션도 잘 돌아가고, 애플리케이션 재시작하면 다시 잘 살아나고... 엄청 멘탈 나갔을 듯한데, 트래픽이 없는 것을 보고 진입점포인트 (방화벽) 이슈를 예리하게 캐치해내고, 해결책 또한 방화벽 재설정 같은게 아닌 DCD 설정으로 처리한 게 인상깊었습니다.

약간 유사한 사례라 생각되는 포스팅: https://pat98.tistory.com/788

확실히 아는게 많을수록 시선도 넓어지고 처리 능력도 좋아지는 것 같다는 생각이 들음과 동시에, 악의적인 의도를 고려하여 ICMP reset 을 전송하지 않은 근거있는 행동이 오히려 이러한 결과를 초래했다는 것이 한편으론 무섭네요.

문제를 이해하려면 해당 문제가 드러난 추상화 수준에서 한두 단계를 파고 들어가 실체를 밝혀내는 방법을 알아야 한다.(p.84) 처럼, 한두 단계를 파고 들어가지 않으면 멘탈나가고 발만 동동 굴렀을 것 같습니다.

서버 하나가 작동을 멈추면 [그림 4-9]와 같이 분산된다. 남은 7개의 서버는 각각 총 부하의 14.3% 정도를 처리해야 한다. 각 서버는 전체 부하의 1.8% 정도만 추가로 처리하면 되지만 기존보다 부하가 15% 가량 증가하는 꼴이다. (p.89)

CPU Utilization 이 한 서버당 90% 이상일 때 경고를 띄우는게 아닌, 훨씬 낮은 수치에서 경고를 띄우고 알람을 보내는 이유라고 생각이 드네요. 사내에서 CPU Utilization이라든지, 메모리가 몇 % 쯤일 때 알람을 보내주는지 얘기 나눠봐도 좋을 거 같아 적어봤습니다!

JasonYoo1995 commented 9 months ago

서론

소프트웨어 위기 : 새로운 소프트웨어에 대한 요구가 전 세계 프로그래머의 역량을 넘어선다
- 트래픽 증가와 유저의 기대치 증가
  - 신뢰성 99.999%의 시스템마저도 유저가 너무 많다보니 수천명의 유저에게 오류 발생
- 타 기업 간에도 서비스가 통합되면서, 긴밀한 결합으로 인한 균열 전파 가능성이 높아짐
- 시스템의 복잡성 증가 → 동작 방식 잘못 이해 → 잘못된 설계 → 결함 발생 → 장애 발생
4장에서는 안정성이 낮은 안정성 안티 패턴을 살펴봄

4.1 통합 지점

나비 패턴 : 그림 4-1처럼 중앙 시스템에 입력과 출력이 몰려 있는 형태
거미줄 패턴 : 그림 4-3처럼 서비스 간에 무질서하게 통신하는 형태
- 그림 4-2처럼 비교적 질서적으로 전방 시스템과 후위 시스템으로서 계층을 나눠놓은 형태도 있음
통합 지점 : 두 시스템이 원격 통신을 하는 지점 (그림에서 화살표로 연결된 지점에 해당)
- 통합 지점은 시스템에서 일급 살인자다
각 연결은 안정성을 떨어뜨림
- 서비스를 더 작게 많이 만들수록 안정성이 낮아짐
- SaaS와 더 많이 통합할수록 안정성이 낮아짐
- API 우선 전략으로 더 나아갈수록 안정성이 낮아짐
4.1.1 ~ 4.1.5에서는 통합 지점에서 발생하는 문제와 취할 수 있는 조치를 소개

4.1.1 소켓 기반 프로토콜

원격 시스템의 연결 거부 시
- 즉시 에러를 응답하면 큰 문제 없음
- 응답이 길게 지연되면 큰 문제
3-방향 핸드셰이킹(three-way handshaking)
- 연결 과정
  - 1 SYN → 2 SYN/ACK → 3 ACK 를 통해 연결
  - 1 SYN를 수신했으나 자원이 부족하면
    - 2 SYN/ACK을 아직 응답시키지 못하고 요청을 수신 대기열에 대기 시키는 경우
      - 요청한 서버가 블록됨 (최악)
      - 10분 가량 블록될 수도 있음
    - 수신 대기열이 꽉 찬 경우
      - 즉시 실패 응답 (차악)
      - 1 SYN 수신 시 실패 응답은 매우 빠름
- 연결 후 Read 과정
  - 요청에 대한 처리 시간이 길어져서 응답이 지연되는 경우
    - 요청한 서버가 Timeout 미설정 시 : 블록
    - 요청한 서버가 Timeout 설정 시 : Timeout 초과 시 에러 응답
늦은 응답이 무응답보다 훨씬 나쁘다

4.1.2 오전 5시 문제

현상
- 서버가 새벽 5시마다 완전히 정지되는 현상 발생
- 재시작하면 정상화됨
추적
- JDBC 드라이버 내부 코드에서 블록됨을 확인
- DB 서버에 요청 이력이 없음을 확인
원인
- 새벽에는 트래픽이 너무 적어서, 방화벽의 연결 허용 목록에서 삭제됨
  - ex) ‘192.0.2.98:32770이 192.168.1.199:80’에 연결되었음’이라는 상태 정보가 트래픽 부재로 일정 시간 뒤 삭제됨 (요청한 서버 또는 요청 받는 서버가 죽거나 사라진 것으로 간주)
- 방화벽은 삭제 사실을 요청한 서버에게 응답하지 않음
- 따라서, 방화벽에 의해 추후 요청들이 막히게 됨
해결
- DCD(Dead Connection Detection) 기능을 통해 요청 받는 서버가 요청한 서버에게 일정 간격으로 ping 패킷을 보냄으로써 방화벽에서 연결 정보가 삭제되지 않도록 함
추상화 계층에서 Low한 계층까지 파고들어야 원인을 밝힐 수 있는 사례를 보았음

4.1.3 HTTP 프로토콜

HTTP는 소켓을 기반으로 하기 때문에 소켓이 가지는 문제점도 가지면서 그에 더해 추가적인 문제를 가진다 (주로 클라이언트 라이브러리 관련 문제)
아래 기능이 없는 클라이언트 라이브러리는 피하자
- 연결 시간 Timeout 설정 기능
- 읽기 시간 Timeout 설정 기능
- 응답 코드 제공 등 응답 결과를 정밀하게 핸들링 할 수 있는 기능 (ex : 응답을 직접 도메인 객체에 매핑하려는 라이브러리는 피하자) → 11장 보안에서 다시 살펴봄

4.1.4 업체 제공 API 라이브러리

많은 업체 제공 API 라이브러리들이 블로킹 발생, 교착 상태 등 안정성 위험이 많은 클라이언트 API 라이브러리를 제공함
라이브러리 내부를 제어할 수 없기 때문에 역컴파일해서 버그를 찾고 버그를 업체에 제보해서 패치 버전을 기다리는 수 밖에 없음

4.1.5 통합 지점 문제 대응책

회로 차단기(circuit breaker)
- 참고 : https://hyeon9mak.github.io/spring-circuit-breaker/
결합 분리 미들웨어(decoupling middleware) - ex : 메시지 큐
테스트 하네스(test harness)
- 미리 정해진 응답을 반환하도록 설정하여, 다양한 유형의 시스템과 네트워크 장애를 모방
- ex : 규약을 지키지 않은 헤더 / 갑자기 닫힌 연결 등
테스트 하네스를 세팅해놓고, 부하 테스트 진행

요점 정리

통합 지점은 필요악이다
- 통합 지점은 어떤 식으로든 장애를 일으키므로, 장애를 대비해야 한다
다양한 형태의 장애에 대비해라
- 네트워크 이슈
- 느린 응답
- 의미상 오류
- 정의된 프로토콜 위반
- 완전한 작동 중단
언제 추상 계층 속을 들여다봐야 할지 파악해라
- 때로는 Low Level을 들여다봐야 원인을 알 수 있다
- 패킷 분석기(packet sniffer)나 기타 네트워크 진단 도구를 사용해라
장애는 신속하게 전파된다
- 코드를 충분히 방어적으로 작성하지 않는다면 원격 시스템의 장애가 우리의 문제로 연이어 전파된다
안정성 패턴을 적용하여 통합 지점의 문제를 방지하라
- Circuit Breaker, Timeout, Message Queue, Hand-shaking 등을 사용하여 위험을 피한다

4.2 연쇄 반응

Scale Out된 서버 클러스터에서 8개의 서버가 12.5% 씩 부하를 나누어 가지다가 1개 서버가 죽으면 나머지 7개 서버가 14.3% 씩 부하를 나누어 가진다
부하가 늘면 장애가 생길 가능성이 늘어난다
이로 인해 모든 서버가 연쇄적으로 장애가 생기는 속도가 점점 가속화될 수 있다
- ex: 1번째 중단과 2번째 중단 사이의 간격이 5분이라면 7번째 중단과 8번째 중단 사이의 간격은 수초가 될 수 있다
호출처도 장애가 전파될 수 있다 (연계 장애)
방지책
- 메모리 누수 지점을 방지하라
- 교착 상태를 방지하라
- Auto-scaling을 사용하라
- 격벽을 사용하라 (5.3 참조)
- 호출처는 Circuit Breaker를 사용하라
  4.3 연계 장애
연계 장애 : 호출 받는 서버의 장애를 호출하는 서버가 전파 받는 것
- 팬인(fan-in) 수가 높은 서비스일수록 (자신을 의존하는 서비스가 많을수록) 자신의 문제를 널리 확산 시킨다
장애의 원인에는 애플리케이션 버그, 메모리 누수 등 다양한 이유가 있지만 그 중에 데이터베이스 장애로 인한 연계 장애가 대표적이다
- 특히 요즘은 마이크로 서비스가 널리 퍼졌는데 서비스마다 각자의 DB를 갖고 있다 보니 더욱 DB 장애로 인한 연계 장애 대비의 중요성이 커진다
연계 장애는 종종 호출 결과가 돌아오지 않음에도 Timeout을 걸지 않아서 호출한 서버의 자원 풀 내 Connection들이 Block되면서 발생한다 → 안전한 자원 풀은 언제나 Timeout을 둔다
투기적 재시도(speculative retries)
- 응답을 기다리지 않고 재호출한 후에 가장 먼저 오는 응답을 사용하는 전략
- 요청하는 쪽의 CPU도 소진되고, 요청 받는 쪽의 스레드도 소진된다
연계 장애를 예방하는 가장 효과적인 패턴
- Circuit Breaker
- Timeout
  4.4 사용자
서버를 호출하는 사용자(또는 서버)는 서버가 존재하는 이유이면서 동시에 서버를 위험에 빠뜨리는 존재이다

4.4.1 트래픽

처리 능력(capacity)
- 시스템이 주어진 작업 부하에서 수용 가능한 성능을 유지하면서 견딜 수 있는 시간당 최대 처리량(throughput)
Autoscaling이 capacity를 늘리는 데에 도움이 될 수 있으나 capacity 부족의 원인이 애플리케이션 버그라면 끝없이 Scale out 하게 되어 엄청난 클라우드 비용을 지출할 수 있다
힙 메모리
- 데이터를 ‘힙 메모리 기반의 세션’에 저장한다고 가정
  - 세션 내 값을 더 이상 사용하지 않는 상황에도 세션은 일정 시간 동안 메모리에 유지되다가 사라짐
- 문제
  - 트래픽이 많아지면 메모리가 부족해진다
- 메모리 부족 시 증상
  1. 메모리 부족 예외 응답
  2. 오류 로그 기록 불가하여 모니터링/추적 어려움
- 해결책
```
MagicBean hugeExpensiveResult = ...;
SoftReference ref = new SoftReference(hugeExpensiveResult);
session.setAttribute(EXPENSIVE_BEAN_HOLDER, ref);
```
  1. 메모리 내 세션을 가능한 한 작게 유지
  2. 데이터(=Java에서 대규모 객체)를 약한 참조(=weak reference, Java에서는 SoftReference)로 참조하고 메모리 여유가 없을 때 자동으로 가비지 컬렉터를 통해 메모리 회수
    - 주의사항 : 메모리 회수 시 대규모 객체만 회수되고(=null이 되고) 약한 참조 자체(=SoftReference)는 회수되지 않으므로 이를 고려하여 null 케이스에 대한 핸들링 필요
  3. 데이터 저장 시 세션을 사용하지 않는 것이 가장 좋음
힙 외부 메모리, 호스트 외부 메모리
- 힙 내부 말고, 다른 프로세스에 데이터를 저장하는 방식
- Memcached, Redis 등
- 데이터 크기와 접근 소요 시간 사이의 Trade Off 고려 필요
  - 접근 소요 시간 비교
    - 레지스터 < 캐시 < 메인 메모리 < 원격 메모리(Memcached, Redis) < 디스크
  - 데이터 크기가 작다면
    - 메모리 부족이 발생하지 않으므로 접근 소요 시간이 짧은 ’메인 메모리’에 저장하는 것이 낫다
  - 데이터 크기가 크다면
    - 메모리 부족이 발생할 수 있으므로 접근 소요 시간이 길더라도 ‘원격 메모리’에 저장하는 것이 낫다
소켓
- 트래픽이 많아지면 허용 가능한 소켓 개수가 고갈된다
- 각 요청은 열린 소켓 하나에 해당되며 할당 가능한 포트는 1,024~65,535로 최대 64,511개이다
- 가상 IP를 통해 더 많은 연결을 처리할 수 있지만 수신 대기열을 고갈시키지 않아야 하며, 그 외 자원 소진도 고려해야 한다
닫힌 소켓
- 지연 패킷 때문에 꼬이는 문제를 방지하기 위해 닫힌 소켓은 바로 새로운 연결에 다시 사용되지 않고 일정 시간 동안 기다린다 (TIME_WAIT 상태)
- 트래픽이 많아지면 TIME_WAIT으로 인한 자원 소진 영향이 커진다
  - 데이터 센터나 클라우드 인프라 내부에서는 지연 패킷 발생 가능성이 낮으므로 TIME_WAIT 시간을 줄이는 방법도 있다

4.4.2 지나친 서비스 비용

[예시 : 상거래 시스템]
대부분의 사용자
- 대충 살펴보고 검색하다 사라짐 → 캐시 데이터만으로 해결
소수 사용자
- 구매 수행 → 타 서버 호출 및 DB 조회로 시스템에 부담을 줌 (타 서버 = 신용 카드 승인 / 세금 계산 / 주소 표준화 / 재고 확인 / 배송 등을 수행하기 위해 호출해야 하는 서버들)
대비책
- 구매를 수행한 2%라면, 4~10% 수준의 부하 테스트 수행

4.4.3 불쾌한 사용자

요청이 들어올 때마다 매번 새로운 세션이 생성되면 메모리 부족을 야기한다
- 요청 시 쿠키 값이 다르면, 새로운 세션이 생성되는 경우
- 사이트 내 특정 URL에서 무조건 새로운 세션이 생성되는 경우
- 모든 URL (또는 존재하지 않는 URL) 요청 시 무조건 새로운 세션이 생성되는 경우
새로운 세션이 불필요하게 생성되는 원인
- 서버 단에서 세션 생성에 대하여 잘못 구현/설계한 경우
- 웹 스크래핑 목적으로 대량 요청하는 경우
  - 클라이언트 단에서 세션 쿠키를 조심해서 다루지 않으면 매번 새로운 세션이 생성될 수 있음
해결책
- 서버 단에서 세션을 올바르게 구현/설계
- 방화벽 사용하여, 문제의 원인이 되는 특정 IP 차단
- 사이트 이용 약관에 ’개인적 또는 비영리적 목적으로만 내용 조회 가능’하다고 안내하여 법적 대응 근거 마련

4.4.4 해로운 사용자

DDoS처럼 일부러 악의적으로 공격하는 경우
해결책
- 회로 차단기 사용 (ex : DDoS 공격을 감지하고 완화하는 제품 사용)

4.5 블록된 스레드

멀티 스레딩은 성능 향상을 도와주시면 잘못 다루면 블록 상태 등 안정성 문제가 발생한다
때로는 일부 요청 케이스에 블록 상태가 발생함에도 대부분 요청 케이스에서는 문제가 발생하지 않아 서버는 죽지 않는 상태로 문제가 숨어 있을 수도 있다 → 이런 경우를 포착하기 위해, 모니터링 수단을 강화하는 것이 중요하다
데이터 무결성을 보장하기 위해서는 도메인 객체를 동기화해야 한다
- CQRS(Command Query Responsibility Separation, 명령 질의 역할 분리) 사용하면 많은 동시성 문제를 효과적으로 방지할 수 있다

4.5.1 블록 지점 파악

Java의 synchronized method 내부에서 원격 호출을 하는데 원격 서버에서 지연이 발생하면 트래픽이 많을 때 장애로 이어질 수 있다 (캐싱을 사용하더라도 원격 서버의 수용량이 적으면 지연이 발생할 수 있다)
캐시 사용 시 주의 사항
- 캐시의 최대 메모리 사용량을 제한해야 한다
- 적중률(hit rate)이 매우 낮으면, 캐시를 사용하지 않는 것보다 느릴 수 있다
- 공백 문자처럼 생성 비용이 낮은 항목은 캐시에 넣지 않는 게 낫다
- 캐시 데이터는 약한 참조를 사용하여 가비지 컬렉터가 회수할 수 있게 하면 좋다
- 캐시 무효화
  - 원천 데이터 변경 시, 해당 key에 대응되는 캐시 데이터를 삭제하는 것
  - 무효화 대상 서버가 적으면 unicast로 무효화 요청해도 되지만 무효화 대상 서버가 많으면 multicast나 message queue를 통해 무효화 요청하는 것이 효과적이다
  - 무효화 시에는 DB Dogpile을 피하도록 주의 (4.9 도그파일 참고)

4.5.2 라이브러리

클라이언트 역할을 위해 자체 자원 풀을 가지고 있는 라이브러리는 불안정적으로 구현되어 있다면 블록을 거는 스레드의 출처가 된다
비공개 소스보단 오픈 소스를 사용할 것 (개선의 여지가 생김)
서버 호출에 대한 부하 테스트를 진행한 뒤 사용하고 문제가 있다면 Future 등으로 Wrapping 하여 Timeout을 줄 것
양성 피드백 루프(positive feedback loop) : 블록된 스레드와 느린 응답으로 인해 서버로부터의 출력(Output)이 서버로의 입력(Input)을 증가시켜서 문제가 증폭되는 현상
애플리케이션 장애는 거의 대부분, 블록된 스레드와 관련 있고 블록된 스레드는, 일반적으로 DB 연결 풀에서 발생한다

4.6 자기 부정 공격

자기 부정 공격(self-denial attack) : 스스로를 공격하는 상황
- 마케팅으로 인한 예시 : 재사용 가능한 쿠폰을 만 명의 메일로 배포했으나 이 정보가 커뮤니티에 확산되어 수백만 명이 사용하여 장애 발생
- 기술 오류로 인한 예시 : 많은 서버가 공통 의존하는 하나의 캐싱 서버가 있을 때 (프로그래밍 오류로) 한 서버가 캐싱 서버에게 큰 범위의 쓰기 요청을 한 경우
  - 잠금 획득 → 객체 수정 → 잠금 해제 → 캐시 무효화 통지
  - 요청 스레드들이 쓰기 잠금 해제를 기다리면서 병목 발생 가능

4.6.1 자기 부정 회피

무공유 아키텍처 구축 또는 결합을 끊는 미들웨어 적용
비관적 잠금 대신 낙관적 잠금 사용
Autoscaling 사용
마케팅 이벤트 시작 전에 미리 확장해놓기
최소한의 통신 회선만 열어두기
공유 자원을 보호하자 (앞단 부하가 증가하면, 뒷단 처리량이 기하급수적으로 증가하는 버그가 있을 수 있다)

4.7 척도 효과

서버 개수가 적은 개발/테스트 환경에서는 문제되지 않았던 것이 서버 개수가 많은 운영 환경에서는 문제가 될 수 있다

4.7.1 지점 간 통신

서비스 A, 서비스 B가 서로 통신한다면 2가지 통신 경로가 존재하는 반면 서비스 1, 서비스 2, … , 서비스 n이 서로 통신한다면 n x (n - 1) 가지의 통신 경로가 존재 (기하급수적 증가)
대안
- 좋은 순서 : 발행/구독 메시징 > 멀티캐스트 > 브로드캐스트 (발행/구독 메시징은 비용이 많이 들긴 함)

4.7.2 공유 자원

공유 자원을 보호하지 않으면 안정성 이슈 발생
공유 자원이 느려지거나 잠기더라도, 클라이언트가 계속 작동하는지 테스트해야 한다
공유 자원의 예
- 클러스터 관리자
- 잠금 관리자
- 서버 간 공유하는 공통 캐시 서버 또는 DB
무공유 아키텍처
- 각 서버들이 서로 공유 자원을 가지지 않고 독립적으로 작동하는 아키텍처
- 장점 : 처리 능력이 서버 수에 따라 선형적으로 확장됨
- 단점 : 장애 극복 비용이 증가
무공유 아키텍처의 예시
- 아키텍처 형태
  - 각 서버 내 메모리에 세션을 저장하여 서버 간에 세션을 공유하지 않는 형태
- 장애 시나리오
  - 어떠한 연유로 인해 특정 서버 내 세션 보관 중단
- 장애 극복 시나리오
  - 해당 세션을 다른 서버로 이주 필요
- 장애 극복 방법
  - 세션을 중앙화된 백업 서버 또는 DB로 전송하고 백업된 세션을 장애 발생 시 이주에 사용
- 분석
  - 이것은 어느 정도 자원을 공유하는 것이지만 공유 자원으로 집중되는 호출의 수를 줄임으로써 무공유 아키텍처에 근접한 형태라고 볼 수 있다

4.8 처리 능력 불균형

앞단에서는 처리량이 많은데 뒷단에서 이 처리량을 못 받쳐주면 문제 발생
- Ex : 평소에는 앞단의 특정 기능에 대한 요청이 적었는데 마케팅 이벤트로 인해 일시적으로 해당 기능에 대한 요청이 늘어나면서 뒷단에 부담이 가는 경우
- Ex : 속도 제한이 있거나 최대 처리량이 조절되는 API를 호출하는 경우
- Ex : 앞단에 새로운 코드 출시
해결책
- 앞단 : Circuit Breaker 사용
- 뒷단
  - 격벽 - 5.3 참고
  - 핸드셰이킹 - 5.7 참고
  - 배압(backpressure) - 5.11 참고
  - Autoscaling 사용

4.8.1 처리 능력 테스트

운영 환경에서 ‘앞단의 자원’과 ‘뒷단의 자원’ 간의 비율에 맞춰 테스트 환경에서도 동일한 비율로 테스트 하라
그것이 비용 문제로 어렵다면 뒷단의 문제 상황을 모방하는 테스트 하네스를 사용하라 - 5.8 참고
일상보다 큰 부하로 테스트하라

4.9 도그파일 (Dogpile)

도그파일 : 한 무리의 서버가 순간적인 부하를 한 번에 가하는 것
- Ex : 코드를 업그레이드하고 재시작할 때와 같이 여러 서버를 부팅할 때
- Ex : 크론 작업이 정각에 발동할 때
- Ex : 구성 관리 시스템(configuration management system)이 변경 사항을 푸시할 때
부하를 분산하는 법
- 크론을 정각이 아닌 시간으로 분산 시킨다
- 구성 관리 도구가 무작위로 조금씩 다른 시간에 변경 사항을 가져오도록 한다

4.10 지렛대 원리

관리자는 자동화를 통해 적은 노력으로 대규모의 변경을 만들어낼 수 있다

4.10.1 전면 장애 증폭

레딧(Reddit) 사례 예시
- 주키퍼 클러스터 업그레이드 필요 → 관리자가 Autoscaler Service 수동 종료 → 주키퍼 업그레이드 수행 → 패키지 관리 시스템이 Autoscaler Service가 꺼져 있음을 감지하고, 자동으로 재실행 시킴 → Autoscaler Service는 너무 많은 서버가 실행 중이라고 판단 → 이에 따라 Autoscaler Service가 다수의 애플리케이션 및 캐시 서버를 종료 시키면서 장애 발생 → 관리자가 수동으로 인스턴스를 복원 (캐시는 비어 있음) → 캐시를 채워넣기 위해 한꺼번에 DB에 많은 요청 호출 (서비스가 돌아오긴 했지만 매우 느림) → 캐싱 완료 후 서비스 정상화
Service Discovery 시스템 예시
- 여러 노드로 구성된 Service Discovery 클러스터에서 한 노드가 네트워크 장애 발생으로 모든 서비스들이 사라졌다고 착각 → 나머지 Service Discovery 노드에게 그 사실을 전달

4.10.2 제어와 안전 장치

위 사례의 교훈
- 자동화된 장치는 착각을 일으킬 수 있다
- 그 착각으로 인해 전체 시스템을 파괴히지 않도록 제한기와 보호 장치를 구축해야 한다
  - Ex : 일정 시간 동안 제거 가능한 서버 대수 제한
  - Ex : 확장 가능한 최대 서버 대수 제한 (무한 확장으로 인한 청구 비용 문제 예방)

4.11 응답 지연

응답 지연의 원인
- 흔히 요청이 많은 경우 일어난다
- 메모리 누수로 가비지 컬렉션이 자주 돌아서 응답이 지연되는 경우도 있다
응답 지연의 특징
- 연결 거부 혹은 오류 반환보다 나쁘다
- 연계 장애를 유발한다
빠른 응답으로 해결하라
- SLA가 100ms라면, 최근 20개 요청의 평균 응답 속도가 100ms 초과 이면, 요청을 거부하도록 한다
- 이러한 동작 방식을 잘 문서화하여, 호출하는 측에서 적절히 핸들링할 수 있게 한다

4.12 제한 없는 결과

4.12.1 검은 월요일

사례 : CPU를 100% 사용하고 3~4분 후 가비지 컬렉터의 메모리 오류로 프로세스 종료
- 메모리 부족이 원인임을 알게 한 단서
  - 가비지 컬렉션이 동작할 때 CPU 사용률이 증가하므로 메모리 부족으로 가비지 컬렉팅이 바쁘게 동작한 것으로 추측
- 메모리가 부족해진 이유
  - DB 쿼리 시 천만 개가 넘는 행을 서버에 객체로써 적재 시도했기 때문
- 프로세스가 종료된 이유
  - JDBC 드라이버 코드 중 native code가 있었으며 메모리 부족한 상황에서 malloc() 호출 도중 native code의 핸들링 오류로 비정상 종료된 것으로 추측
해결책
- 개발/QA 환경에서 DB쿼리 테스트 시 운영 환경 규모의 데이터 셋으로 테스트 해볼 것
- 앞단에서 요청할 때 Pagination을 통해 요청할 것

binchoo commented 9 months ago

버그가 있는 애플리케이션 규모를 자동으로 조정하다가 엄청난 비용을 지출하는 일이 흔하기 때문이다. (p. 96) 관련하여 재미있는 트러블 슈팅 경험이 있어서 공유드리겠습니다.

정확히는 '어플리케이션 문제' + 'EC2 AutoScaling group 구성시 약간의 실수'로 인해 EBS 비용이 엄청나게 증가할 수 있는 사안입니다.

caffeine-library / release-everything

[keyword] 4장 - 안정성 안티 패턴 #9

주제