Open minkukjo opened 7 months ago
쓰면 안 되는 방법: 해시값에 모드 N 연산을 실행
딱 면접에 나오기 좋은 질문이다파티션을 노드 대수보다 많이 만들고 각 노드에 여러 파티션을 할당하는 것
은 Kafka topic의 partition을 이렇게 많이 쓰는 듯.카산드라 3.0에는 불균등한 분할을 회피할 수 있는 대안적인 재균형화 알고리즘이 추가됐다
완전 자동 재균형화
얘기가 나옴...get {key}
하면 그 키가 있는 node의 IP주소를 알려줌
스으윽
파티셔닝과 샤딩의 차이
파티셔닝
샤딩
샤딩
이라고 불리며, 데이터들은 클러스터 내에서 다른 서버로 분산되어 저장되어짐출처 : https://www.baeldung.com/cs/database-sharding-vs-partitioning
데이터 파티셔닝의 이점과 문제점
skewed
(쏠림) 현상이 발생할 수 있으며 이 때 파티셔닝 성능은 매우 떨어진다.핫스팟
현상이라고 부른다.키 범위 기준 파티셔닝
키의 해시값 기준 파티셔닝
핫스팟 완화
보조색인
그 자체
이다. ( Inverted Index... )문서 기준 보조 색인
용어 기준 보조 색인
color:red
에 해당하는 모든 데이터를 특정 파티션에 몰아버리는 방식이다.파티션 재균형화
파티션 개수 고정을 하자
동적으로 파티셔닝을 해볼까?
노드 비례 파티셔닝은 어때?
운영 관점에서 자동 재균형 VS 수동 재균형
요청 라우팅
병렬 질의 실행