NW-book-club / apache-kafka-application-programming

아파치 카프카 어플리케이션 프로그래밍 with 자바 (최원영)

0 stars 0 forks source link

Chapter 3 - 카프카 기본 개념 설명 #3

Open jjy0918 opened 2 years ago

jjy0918 commented 2 years ago

카프카 속도 향상 전략

카프카의 일원화된 데이터(바이너리 데이터)
- 카프카의 데이터(메시지) 들은 모두 바이너리 형식으로 구성되어 있다.
- 일반적으로 데이터 전송은 4단계로 구성된다.
  1. OS는 디스크에서 커널 공간의 페이지 캐시로 데이터를 읽습니다.
  2. 응용 프로그램은 커널 공간에서 사용자 공간 버퍼로 데이터를 읽습니다.
  3. 응용 프로그램은 데이터를 다시 커널 공간에 소켓 버퍼에 씁니다.
  4. OS는 소켓 버퍼에서 네트워크를 통해 전송되는 NIC 버퍼로 데이터를 복사합니다.
- 카프카는 4단계 중 2번째 단계를 생략할 수 있다.
- 데이터 형식이 같기 때문에 커널 페이지 캐시 -> 소켓 버퍼로 바로 데이터를 전송할 수 있다.
  
  https://www.freecodecamp.org/news/what-makes-apache-kafka-so-fast-a8d4f94ab145/

카프카 캐시 전략

카프카는 페이지 캐시를 사용한다.
캐시에는 여러 전략이 존재한다.(LRU, LFU 등)
카프카에서는 캐시 전략을 LRU로 사용한다.
Records are evicted using a simple LRU scheme after the cache size is reached.

https://kafka.apache.org/28/documentation/streams/developer-guide/memory-mgmt.html

DefaultPartitioner

카프카에서 Producer 생성 시 Partitioner를 설정하지 않으면 DefaultPartitioner가 생성된다.
1. RoundRobinPartitioner(Kafka 2.3 이하)
2. UniformStickyPartitioner(Kafka 2.4 이상)
Partitioner는 파티션을 결정하는 역할을 한다.
key 값이 없는 경우(null) DefaultPartitioner는 다른 전략을 보인다.

RoundRobinPartitioner 은 파티션들을 순회하며 저장한다.
UniformStickyPartitioner 은 배치 사이즈나 시간을 바탕으로 하나의 파티션에 저장 후 다시 할당하여 저장하는 방식을 반복한다.
UniformStickyPartitioner 가 더 효율적일까?
파티션의 개수가 많아지면 더 효율적이다.

https://cwiki.apache.org/confluence/display/KAFKA/KIP-480%3A+Sticky+Partitioner

KKambi commented 2 years ago

페이지 캐시

https://en.wikipedia.org/wiki/Page_cache 운영체제는 메인 메모리(RAM)의 사용하지 않는 부분을 디스크 캐시로 사용한다.

일반적으로 어플리케이션에 할당되지 않는 물리 메모리의 대부분이다. (어플리케이션이 요청했을 때 해당 메모리를 해제하는 것이 쉽기 때문)

카프카와 페이지 캐시

스크린샷 2022-05-22 오후 5 19 10 https://kafka.apache.org/documentation/#persistence https://medium.com/@sunny_81705/what-makes-apache-kafka-so-fast-71b477dcbf0 카프카는 메세지를 보관하고 캐싱하는데 파일시스템에 많이 의존

일반적으로 "disks are slow"라는 인식이 있다.
하드디스크의 탐색 시간(읽기 헤드를 특정 위치로 이동시키는 것)이 오래 걸리기 때문인데, 카프카는 순차 I/O를 통해 탐색 시간을 매우 줄였다.
카프카는 로그를 세그먼트 단위로 저장하고, 메세지들은 오프셋을 가진다. = 처음에만 무작위로 탐색하고, 그 이후부턴 순차적으로 메세지를 폴링한다. 세그먼트 하나는 디스크에 연속 블록으로 배치되기 때문

SSD vs HDD

자세하게는 모르겠지만, SSD는 전기를 HDD는 자기를 이용함

HDD : 헤드를 플래터의 적절한 위치로 옮겨, 자성 물질로 된 플래터로부터 디지털 신호를 읽는다. 내부의 작은 자석이 정렬되어 있으면 1, 아니면 0
SDD : 반도체의 전류를 흐르게 하거나 차단하는 '스위치' 방식으로 디지털 신호 표현. 디스크를 돌려야 하는 HDD에 비해 훨씬 빠름

jmx port

https://www.baeldung.com/java-management-extensions JMX(Java Management eXtension)

자바 어플리케이션을 실시간으로 관리하기 위한 프레임워크
3가지 레이어로 구성
- Instrumentation : MBean이 JMX agent에 등록된다.
- JMX agent(MbeanServer) : Mbean의 등록을 관리하고 그들에게 액세스할 수 있는 인터페이스 제공
- Remote management : client tool like JConsole
MBean이라는 Managed Bean 객체를 생성해서 MBean Server에 등록하는 형식

Instrumentation : 컴퓨터 프로그래밍에서 인스트루먼테이션은 오류를 진단하거나 추적 정보를 쓰기 위해 제품의 성능 정도를 모니터하거나 측정하는 기능을 가리킨다. 프로그래머들은 시스템에서 특정한 구성 요소를 모니터링하는 코드 명령어 형태로 인스트루먼테이션을 구현할 수 있다.

Producer ACKS

https://www.popit.kr/kafka-%EC%9A%B4%EC%98%81%EC%9E%90%EA%B0%80-%EB%A7%90%ED%95%98%EB%8A%94-producer-acks/

acknowledgments (승인, 확인)
프로듀서가 메세지를 보내고, 그 메세지를 브로커가 잘 받았는지 확인하는 옵션

ack = 0일 경우

프로듀서는 확인을 하지 않음
메세지 손실 가능성도, 보내는 속도도 제일 높다.

ack = 1일 경우

프로듀서는 leader로부터만 확인을 받음
follower가 leader의 업데이트된 메세지를 복제하려는 시점에, leader가 다운되면 메세지 손실
실 환경에서 제일 많이 사용

ack = -1일 경우

프로듀서는 leader와 모든 follower의 복제까지 확인함
일부 follower만 복제에 성공했을 경우, min.insync.replicas 옵션에 따라 동작이 달라짐

min.insync.replicas 프로듀서가 acks = -1의 브로커에게 메세지를 보낼 때, write를 성공하기 위한 최소 복제본의 수

acks=-1 / min.insync.replicas=1인 경우, Replicaion Factor가 2인 상태에서 follower 복제가 되지 않아도 확인 응답

jjy0918 commented 2 years ago

kafka의 heartbeat

kafka는 heartbeat를 통해 장애 여부를 판단한다.
kafka의 heartbeat는 autoCommit이 활성화 되어야 작동한다.
kafka의 hearbeat 작동 과정은 다음과 같다.

kafka가 poll을 시작하면, heartbeat 스레드를 시작한다.


public boolean poll(Timer timer) {
    maybeUpdateSubscriptionMetadata();

    invokeCompletedOffsetCommitCallbacks();

    if (subscriptions.hasAutoAssignedPartitions()) {
     ...
           if (!ensureActiveGroup(timer)) {
                return false;
            }
     }
...
}

...

boolean ensureActiveGroup(final Timer timer) { // always ensure that the coordinator is ready because we may have been disconnected // when sending heartbeats and does not necessarily require us to rejoin the group. if (!ensureCoordinatorReady(timer)) { return false; }

    startHeartbeatThreadIfNeeded();
    return joinGroupIfNeeded(timer);

}

...

private synchronized void startHeartbeatThreadIfNeeded() { if (heartbeatThread == null) { heartbeatThread = new HeartbeatThread(); heartbeatThread.start(); } }


2. heartbeat 스레드는 컨슈머 그룹에서 레코드를 정상적으로 받아 올 수 있는 상태인지 판단한다.

```java
if (state != MemberState.STABLE) {
     // the group is not stable (perhaps because we left the group or because the coordinator
    // kicked us out), so disable heartbeats and wait for the main thread to rejoin.
    disable();
   continue;
}

브로커에 연결될 수 있는 상태인지 판단한다.
브로커에 연결되었다면, 세션 타임 아웃과 poll 타임 아웃, 설정한 heartbeatTImeout을 체크한다.

위 조건을 만족한다면 heartbeat를 전송한다.

heartbeat를 전송이 성공하는 경우 타이머를 업데이트 한다.
heartbeat를 전송이 실패하는 경우 리벨런싱 중인지 판단하고, 그렇지 않다면 인터벌 타임을 조절하여 hearbeat를 전송한다.

정리

heartbeat 스레드는 consumer 상태와 coordinator의 상태를 모니터링하는 역할을 합니다.
heartbeat는 consumer group이 안정적일 때 작동한다.
heartbeat는 heartbeat.interval.ms 마다 전송된다 .
heartbeat 전송 최대 시간은 session.timeout.ms이다다.
poll은 max.poll.interval.ms 보다 빨리 호출해야 한다.

https://chrzaszcz.dev/2019/06/kafka-heartbeat-thread/

KKambi commented 2 years ago

KStream, KTable, GlobalKTable

https://gunju-ko.github.io/kafka/kafka-stream/2018/05/24/KTable-GlobalKTable.html https://m.blog.naver.com/syam2000/222158302362

핵심 : 레코드의 모음(특정 토픽)을 레코드의 스트림(시간순 중요)으로 추상화해서 데이터를 조회하는 것 ex) Test 토픽의 데이터를 KStream으로 조회한다.

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.kstream.KStream;

StreamsBuilder builder = new StreamsBuilder();

KStream<String, Long> wordCounts = builder.stream(
    "word-counts-input-topic", /* input topic */
    Consumed.with(
      Serdes.String(), /* key serde */
      Serdes.Long()   /* value serde */
    )
);

KStream

레코드 스트림의 추상화
모든 레코드를 INSERT로 해석
1개의 태스크(스레드)가 해당 토픽의 특정 파티션 데이터만 가져올 수 있음

스크린샷 2022-05-29 오후 3 55 00 KTable

changelog 스트림의 추상화
모든 레코드를 INSERT(처음) / UPDATE(중복)으로 해석
1개의 태스크는 해당 토픽의 특정 파티션 데이터만 가져올 수 있음

GlobalKTable

changelog 스트림의 추상화
모든 레코드를 INSERT(처음) / UPDATE(중복)으로 해석
🔥1개의 태스크는 해당 토픽의 모든 데이터를 가져올 수 있음

추상화된 스트림 간의 Join

Kstream & KTable

둘 다 1개 태스크 = 1개 파티션
파티션 개수와 파티셔닝 전략이 동일하도록 리파티셔닝한다 -> 같은 외래키를 가진 레코드끼리, 같은 번호의 파티션에 위치할 수 있게 만든다. -> 조인할 수 있다.

KStream, KTable & GlobalKTable

GlobalKTable은 모든 데이터를 갖고 있음
따라서 리파티셔닝 필요 없이, 각 태스크에서 갖고 있는 데이터와 외래키가 겹치는 레코드만 조인하면 된다.

jjy0918 commented 2 years ago

카프카의 기본 설정

Properties

카프카에서 설정을 할 때에는 Properties를 사용한다.
Properties는 java.util에 구현되어 있는 라이브러리로 HashTable을 상속 받은 클래스이다.
HashMap이 아니라 HashTable을 구현하였기 때문에 기본적으로 Thread-safe하다

StreamConfig

카프카 스트림즈에서는 필수 옵션과 선택 옵션이 존재한다.
Properties를 이용하여 필수 옵션을 지정하고, 선택 옵션을 지정하지 않은 경우 기본값으로 지정된다.
카프카 스트림즈의 기본 값은 어떻게 저장되어 있을까?


val props = Properties()
props[StreamsConfig.APPLICATION_ID_CONFIG] = APPLICATION_NAME
props[StreamsConfig.BOOTSTRAP_SERVERS_CONFIG] = BOOTSTRAP_SERVERS
props[StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG] = Serdes.String().javaClass.name
props[StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG] = Serdes.String().javaClass.name

... 

val streams = KafkaStreams(builder.build(), props)
streams.start()

KafkaStreams 객체를 생성할 때 Properties를 매개변수로 지정한다.
KafkaStreams 생성자 안에서는 매개변수 Properties를 바탕으로 StreamsConfig를 생성한다.

StreamsConfig를 생성하면서, 생성자로 CONFIG라는 이름의 ConfigDef객체를 매개변수로 넘겨준다.

ConfigDef 객체는 StreamConfig 객체 내부 안에 선언되어 있는 맴버 변수이고, static 블록으로 선언되어 있기 떄문에 클래스 로딩 시 생성된다.
기본값이 없는 경우(필수 옵션)는 default 값이 저장되어 있지 않고, 기본값이 있는 경우(선택 옵션)는 default 값이 저장되어 있다.

CONFIG과 Properteis를 생성자의 매개변수로 계속 넘기게 되면, AbstractConfig의 생성자 까지 넘어가게 된다.
StreamsConfig는 AbstractConfig를 상속 받아 구현되어 있다.

ConfigDef로 의 parse 메서드에 Properties를 매개변수로 넘기고 Properties에 저장된 값과 병합하여 최종 Config를 완성한다.
ConfigDef의 키 값이 Properties에 있는 경우 value를 저장한다.
ConfigDef의 키 값이 Properties에 없는 경우, Default 값이 존재하는 경우라면 Default를 저장하고, Default가 필요하다면 에러를 발생시킨다.

KKambi commented 2 years ago

카프카 스트림즈의 장점

https://www.youtube.com/watch?v=vKxhPUUEDmM

카프카 호환성 (with 카프카 릴리즈)
유실 & 중복처리되지 않도록 딱 한 번만 처리되도록 하는 기능
별도의 스케줄링 도구 X (주로 사용하는 스파크 스트림을 쓰면, 별도의 클러스터 관리자 / 리소스 매니저 필요)
스트림즈DSL (for 이벤트 데이터 파이프라인) & 프로세서API (스트림즈에 없는 기능 추가 구현) 대부분은 스트림즈DSL로 해결 가능
자체적인 상태저장소 보유 (rocksDB, 상태에 대한 변환 정보는 카프카의 changelog에 저장)

실시간으로 데이터를 처리하는 방식은 크게 2가지

비상태기반 처리
- 데이터가 들어올 때마다 바로 처리하고 프로듀스
- 필터링, 데이터변환
상태기반 처리
- 매우 어려움 (이전에 받았던 데이터를 메모리에 저장하고, 다음 데이터를 참조해서 처리)
- window, join, aggregation
- 스트림즈는 상태저장소를 가지고 있으므로 장애 복구에 유리

이것저것

https://engineering.linecorp.com/ko/blog/applying-kafka-streams-for-internal-message-delivery-pipeline/

Fault-tolerance local state DB

Kafka Streams에서는 각 프로세서가 고유의 state store
로컬 state는 흔히 aggregation, join, windowing을 구현할 때 사용
장애가 발생하여 프로세서가 다른 호스트로 failover하게 되면, state DB도 함께 새 프로세서로 이전
Kafka Streams가 state DB를 위한 물리 store(pluggable하기 때문에 in-memory store나 RocksDB 등으로 얼마든지 갈아끼우는 것이 가능)를 업데이트하는 동안, ‘changelog’ topic을 위한 특수한 메시지를 생성
topic은 몇 번이든지 반복해서 읽을 수 있기 때문에, 프로세서에 failover가 발생할 때마다 새로운 프로세서가 changelog topic으로부터 읽은 mutation log를 replay하여 로컬 state DB 복구

Loopback replicator

맵/필터 등의 연산을 메시지에 적용하여 topic 간 복제
원본 topic에서 메시지를 분류 -> 용량이 적은 파생 topic을 제공
consumer가 더 적은 수의 메시지를 읽음 -> 네트워크 트래픽과 리소스 사용량 감소
ex) 친구 기능에 필요한 값만을 담은 파생 Topic 제공

jjy0918 commented 2 years ago

카프카 미러 메이커 규칙

단방향 복사
- 기본적으로 카프카 미러메이커는 단방향으로 복사가 진행된다.
- 클러스터 A -> 클러스터 B / 클러스터 B -> 클러스터 A
하나 이상의 Topic 복사
- 미러 메이커는 기본적으로 1개 이상의 Topic을 복사한다.
각 Topic은 원격 Topic에 정확하게 복제된다(일대일 매핑)
- Topic뿐만 아니라 레코드도 동일한 파티션에 정확히 일대일로 매핑되어 복사된다.
자동 Topic 생성
- 복사될 Topic이나 그 설정(파티션 수)이 존재하지 않는 경우에 생성하여 복사된다.
원격 Topic 이름 변경
- Topic을 복사하면서 생성되는 Topic의 이름은 클러스터명을 포함한다.
- {원본 클러스터 이름}.{토픽이름}
  - 원본 클러스터 이름이 A이고, 토픽이 topic인 경우 복사되는 토픽의 이름은 A.topic이 된다.
  - clusterA -> clusterB, clusterB -> clusterC 형태가 되는 경우 clusterC의 토픽 이름은 clusterA.clusterB.topicName 이 된다.
    1. 다중 mirror flow
  - 미러메이커2는 기본적으로 양방향을 포함하여 클러스터간 여러 토폴리지를 형성할 수 있다.
  - Fan out(1개의 소스, 여러개의 타겟)
  - 클러스터A -> 클러스터B
  - 클러스터A -> 클러스터C
  - Fan in(여러개의 소스, 1개의 타겟)
  - 클러스터 A -> 클러스터 B
  - 클러스터 C -> 클러스터 B
  - Pipe(여러 클러스터 전달)
  - 클러스터 A -> 클러스터 B -> 클러스터C
  - Bidirectional
  - 클러스터 A -> 클러스터 B
  - 클러스터 B -> 클러스터 A
  - Complex
  - 클러스터 A -> 클러스터 B
  - 클러스터 B -> 클러스터 A
  - 클러스터 C -> 클러스터 B
  - 클러스터 A -> 클러스터 D
    1. 사이클 방지
  - 양방향 클러스터등을 통해 infinity mirror와 같은 현상이 발생할 수 있다.
  - 이러한 것을 방지하기 위해 미러메이커2는 topic으로 필터링하는 기능을 제공한다.
    1. 자신의 클러스터 이름을 가진 토픽 복사 방지
  - 미러메이커2는 기본적으로 토픽에 자기 클러스터 이름이 들어가 있는 경우 복사를 하지 않는다.
  - A클러스터에 B.topic1이 있는 경우 B클러스터는 B.topic1을 복사하지 않는다

출처 : https://www.instaclustr.com/blog/kafka-mirrormaker-2-theory/

KKambi commented 2 years ago

https://hyperconnect.github.io/2021/01/11/cdc-platform.html

카프카와 CDC Platform

CDC = Change Data Capture
Datasource -> Kafka -> 원하는 곳에서 Consume
이 때 다양한 데이터소스로부터 카프카에 변경된 데이터를 전송할 때 Source Connector를 사용한다.
ex) MySQL에서 특정 테이블의 데이터가 UPDATE 등으로 변경되는 경우, 이를 캡쳐하여 카프카에 전송한다.

CDC Platform에서 활용하는 카프카 커넥트

운영 환경이므로 분산 모드 커넥트만 생각한다. 카프카 커넥트의 아키텍쳐는 크게 3가지 모델로 나뉜다.

Connector Model : 어떤 데이터를 어떤 형식으로 복제할 것인지?
Worker Model : 워커가 태스크를 어떤 로직으로 수행할 것인지?
Data Model : 메세지(데이터)의 형식과 내용은 어떤지?

하나의 카프카 커넥트

Datasource로부터 변경된 데이터를 읽음 (Source에 맞는 커넥터 사용)
데이터를 가공할 수 있는 Transform (특정 값 추가,제거 / 날짜 형태 변경 등)
가공한 데이터를 Kafka에 전송하기 위한 형태로 변환하는 Converter (Json, ProtoBuf 등의 직렬화 등 -> 최종에는 카프카에 전송하기 위한 ByteArray)

다수의 카프카 커넥트

하이퍼커넥트는 분산 카프카 커넥트를 관리하기 위해 REST API를 호출할 수 있는 스크립트 운영
REST API를 호출하는 code 기반의 어드민 페이지를 운영할 수도...?

MySQL Source Connector

MySQL은 Create, Drop과 같은 DDL / Insert, Update, Delete와 같은 DML문으로 데이터를 변경할 때 해당 이벤트를 로그 파일로 기록

MySQL Binlog (바이너리 로그)
해당 파일을 카프카 커넥트에 쌓기 위한 별도 설정 필요

https://engineering.linecorp.com/ko/blog/line-shopping-platform-kafka-mongodb-kubernetes/ 널리 사용되는 대부분의 DBMS는 데이터 수준의 로그를 남긴다 (MongoDB도 있다고 함)

백업 및 복원 용도
복제 용도

Kafka 커넥터를 제작할 때 JDBC와 같은 통일된 규격이 존재하지 않음

따라서 커넥터마다 사양이 제각각이며 각각 장단점 존재
구글링을 해봤을 때 Debezium에서 제공하는 커넥터를 많이 사용

KKambi commented 2 years ago

ExecutorService

https://www.baeldung.com/java-executor-service-tutorial

비동기 모드에서의 태스크를 지원하는 JDK API
쓰레드 풀과 태스크를 할당하는 API를 지원

ForkJoinPool을 지원하는 fork/join framework와 다른 것!

ExecutorService - 각 스레드가 각자 다른 일을 담당할 경우 fork/join - 각 스레드가 하나의 일을 분할(fork)해서 정복(join)할 경우

단계1 - 인스턴스화

ExecutorService 타입에 인스턴스를 할당해야 한다.

방법1) Executors 클래스의 팩토리 메소드 사용

newCachedThreadPool
newFiexdThreadPool

newScheduledThreadPool

ExecutorService executor = Executors.newFixedThreadPool(10);

방법2) 직접 ExecutorService 생성 ExecutorService는 인터페이스이므로, 어떤 구현체든 사용할 수 있다. java.util.concurrent 패키지에 정의된 구현체를 사용해도 되고, 직접 정의해도 된다.

// 사실 newSingleThreadExecutor() 팩토리 메소드의 소스 코드와 유사하다.
// 대부분의 케이스에서 팩토리 메소드로 해결 가능
ExecutorService executorService = 
  new ThreadPoolExecutor(1, 1, 0L, TimeUnit.MILLISECONDS,   
       new LinkedBlockingQueue<Runnable>()
  );

단계2 - 태스크 할당 & 수행

ExecutorService는 Runnable / Callable 타입의 태스크를 실행한다. (책에서 Runnable 인터페이스를 구현한 커스텀 Worker 클래스를 만듬)

둘 중 한 타입을 구현한 객체를 생성한다.
ExecutorService 객체의 메소드 중 하나를 선택해 태스크를 할당한다.
1. execute() : task 수행 결과를 얻거나 체크할 수 없음 (return void)
2. submit() : Future 타입 반환
3. invokeAny() : 태스크 컬렉션 할당. 모두 실행하고, 컬렉션 중 성공한 하나의 결과를 반환
4. invokeAll() : 태스크 컬렉션 할당. 모두 실행하고 List<Future
  > 반환
```
executorService.execute(runnableTask);
Future<String> future = executorService.submit(callableTask);
String result = executorService.invokeAny(callableTasks);
List<Future<String>> futures = executorService.invokeAll(callableTasks);
```

단계3 - ExecutorService 종료

일반적으로 태스크가 없어도 해당 객체는 자동 파괴되지 않음 (생성한 스레드 풀이 잔재)

shutDown() : 바로 종료시키진 않음. 새로운 태스크 할당을 막은 후, 수행중인 스레드의 작업이 모두 끝나면 종료된다.
shutDownNow() : 즉시 종료. 수행 중인 쓰레드가 동시에 멈추리라는 건 보장되지 않음.

Oracle이 추천하는 방법. 일정 시간 동안 작업 수행을 기다린 뒤, 이후에도 끝나지 않으면 즉시 종료.

executorService.shutdown();
try {
    if (!executorService.awaitTermination(800, TimeUnit.MILLISECONDS)) {
        executorService.shutdownNow();
    } 
} catch (InterruptedException e) {
    executorService.shutdownNow();
}

Future 인터페이스

submit()과 invokeAll()의 반환 객체. 비동기 작업의 수행 결과를 담는 인터페이스.

get() 메소드를 통해 코드 진행을 block하고 태스크가 완료되면 결과를 얻을 수 있다 (Javascript의 await)
일정 시간 동안 block하고, 작업이 끝나지 않으면 exception을 발생시키는 기능도 제공
cancel() 메소드로 작업을 취소시킬 수 있음

Executors 팩토리 메소드에 파라미터를 넘기지 않으면?

Q. 생성된 Pool은 몇 개의 스레드를 갖고 있는 걸까요? A. 스레드 풀의 종류마다 다르다

CachedThreadPool : 최대 개수를 제한하지 않음. 태스크가 할당되면 놀고 있는 스레드를 사용 or 새로 생성 (그래서 짧은 태스크에 적합)
FixedThreadPool : 최대 개수 정한 스레드 풀
ScheduledThreadPool : 최대 개수를 정하고, 작업을 딜레이주거나 정기적으로 실행하는 풀

키바나 인덱스 패턴

엘라스틱서치

데이터 저장소
인덱스 : 서로 관련있는 문서들의 모음 (JSON 문서의 집합)
RDB의 테이블과 유사한 개념 (row의 집합 = 문서의 집합)

키바나

엘라스틱서치에 저장된 데이터를 쿼리해서 시각화하는 도구
인덱스 패턴 : ES의 여러 인덱스들에 저장된 데이터들을 가져올 때, 관심있는 인덱스 데이터들을 골라 가져오고 싶다. 이 때 인덱스 패턴을 지정해 해당되는 인덱스들의 데이터를 쿼리한다.

class MetricHelper:
    def __init__(self):
        self.host = '엘라스틱 서치 url'
        self.port = 9200
        self.es = Elasticsearch([{'host': self.host, 'port': self.port}, ], timeout=10)
        self._index = "item_count-{:%Y.%m}".format(datetime.now(timezone('Asia/Seoul')))

이 경우 월별로 다른 인덱스에 데이터를 저장하게 될 것이다. 이 때 키바나에서 모든 item_count 인덱스들의 데이터를 시각화하고 싶다면, 인덱스 패턴을 item_count-*로 설정하게 된다.

jjy0918 commented 2 years ago

무중단 배포 방법

롤링

일반적인 배포 방법
단순하게 서버를 배포하는 방법.
기존 버전에서 새로운 버전으로 점진적 배포
배포할 인스턴스를 로드밸런서에서 제거한 다음 배포한다. 그 이후 다시 로드밸런서에 등록한다.
장점
- 인스턴스 차례로 배포하기 때문에 롤백이 쉽다.
- 배포 방식이 간단하다.
단점
- 새 버전 배포 시 배포중인 인스턴스가 로드밸런서에서 제거되기 때문에 다른 인스턴스로 트래픽이 몰릴 수 있다.
- 여러 버전이 혼재되어 있기 때문에 호환성 문제를 야기시킬 수 있다.

블루-그린

블루: 이전 버전
그린: 새로운 버전
블루 버전과 그린 버전을 모두 띄우고, 그린이 준비가 완료되었다면 블루를 종료시킨다.
장점
- 서비스의 중단점이 없기 때문에 버전 혼재에 따른 문제가 없다.
- 블루가 남겨져 있기 때문에 롤백이 쉽다.
단점
- 리소스가 두 배로 필요하다는 단점이 있다.

카나리

릴리즈 버전을 하나씩 올려서 정상 작동하는지 확인한 후 기존 버전을 종료한다.
이러한 방식을 반복하여 점진적 배포한다.
카나리 배포를 하기 위해서 테스트 그룹의 크기나 그룹에 포함될 사람등을 지정해야 한다.
배포 후 지속적 모니터링 후 결과가 만족스러우면 점진적 배포를 한다.
장점
- 문제 상황을 빠르게 감지할 수 있다.
- 서로 다른 버전에 대한 테스트가 가능하다.
- 블루-그린 방식보다 저렴하다.
단점
- 네트어크 트래픽 제어 부담이 있다.

https://www.koyeb.com/blog/blue-green-rolling-and-canary-continuous-deployments-explained

jjy0918 commented 2 years ago

스프링 카프카 AutoConfiguration

스프링 카프카에서는 application.yaml에서 설정할 수 있는 기능을 제공한다.
application.yaml에 작성된 옵션을 바탕으로 KafkaTemplate 등을 자동 설정한다.

KafkaProperties

application.yaml에 작성한 값들은 KafkaProperties를 통해 Bean 등록된다.

KafkaAutoConfiguration

kafka 는 application.yaml 파일을 기준으로 AutoConfiguration 기능을 제공하고, 이를 통해 kafkaTemplate등을 만들어준다.

AutoConfiguration 과정

ConfigurationProperties

ConfigurationProperties 어노테이션을 이용하여 application.yaml 파일의 값을 객체로 변환시킬 수 있다.

@ConfigurationProperties("my.service")
public class MyProperties {

    private boolean enabled;

    private InetAddress remoteAddress;

    private final Security security = new Security();

    // getters / setters...

    public static class Security {

        private String username;

        private String password;

        private List<String> roles = new ArrayList<>(Collections.singleton("USER"));

        // getters / setters...

    }

}

AutoConfiguration

AutoConfiguration 기능을 사용하고 싶다면 @AutoConfiguration 어노테이션을 해당 클래스에 붙이면 된다.
다만, 주의할 점은 @EnableAutoConfiguration 어노테이션을 붙여서 가능하도록 알려주어야 한다는 것이다.
- 스프링 부트에서는 기본적으로 @EnableAutoConfiguration이 붙어져있다.

ConditionalOnClass / ConditionalOnMissingBean

ConditionalOnClass 어노테이션을 통해 어떠한 클래스를 bean으로 자동 등록할 지 결정할 수 있다.
ConditionalOnMissingBean 어노테이션을 통해 bean으로 등록되지 않은 경우에만 동작하도록 만들 수 있다.

springboot.autoconfiguration

springboot에서 미리 설정해 놓은 auto configuration 정보를 확인할 수 있다.

https://docs.spring.io/spring-boot/docs/current/reference/html/features.html#features.external-config.yaml

KKambi commented 2 years ago

Future 좀 더 파헤치기

Future와 작업 결과

Future는 비동기 작업의 결과를 담는 역할

별도 콜백 X
비동기 작업의 결과를 동기적으로 사용할 수 있음
worker thread의 작업 결과로 생성한 future 객체를 main thread에서 활용 (일종의 공유저장소)

비동기 작업의 결과를 콜백 함수로 처리하기 위해선 다양한 방법이 있다.

별도의 콜백 함수를 만들어서, Executor의 execute() / ExecutorService의 submit()의 파라미터인 Runnable / Callbale의 구현체에 콜백 함수 넣어서 사용
CompletionHandler 인터페이스 구현

ListenableFuture

기존 Future처럼 사용하되, 객체 생성 후 callback을 나중에 등록할 수 있음

google guava 오픈소스 라이브러리에 포함
스프링 4.0

@Async 메소드의 반환 파라미터로 받을 수 있음

ListenableFuture<SendResult<String, String>> future = customKafkaTemplate.send(TOPIC_NAME, "test");
future.addCallback(new KafkaSendCallback<String, String>() {
// onSucess 메소드 오버라이딩
// onFailure 메소드 오버라이딩
});

CompleteableFuture

작업이 완료될 것을 가정하고 fluent한 함수형 프로그래밍 스타일로 코드를 작성할 수 있는 future

Java 8

최초의 비동기 작업 후, 다음 작업 구성 시 다양한 작업 가능 (동기 / 비동기 / 결과조합 등)

public class completablefuture {

@Test
public void completableFuture() throws Exception {
    CompletableFuture<String> completableFuture  = CompletableFuture
            .supplyAsync(() -> "Hello")
            .thenCompose(str -> CompletableFuture.supplyAsnyc(() -> s + " World"))
            .exceptionally(throwable -> {
                System.out.println("exception occurred!!");
                return null;
            });

    assertThat(completableFuture.get()).isEqaulTo("Hello World");
}
}

Hadoop

분산처리 시스템을 제공하는 아파치 재단의 오픈 소스 프레임워크

공통 모듈 Hadoop Common
분산 파일시스템 HDFS
분산처리 시스템 Hadoop Map Reduce
컬럼 기반의 분산 NoSQL DB HBase
스케줄링 & 클러스터 관리 Hadoop YARN

Amazon S3, 네이버에서 우리가 사용하는 스토리지 머더라 그것도 분산 파일 시스템

장점

오픈소스
분산 시스템 -> Scale Out / Fault Tolarence / 비용↓
병렬처리에 유리 -> 배치성 작업에 유리

단점

데이터 Update 불가 -> 대용량 데이터의 보관 및 분석에 초점
분산저장이므로 무결성 보장에 어려움
그냥 분산 시스템 자체가 어려움