ParkIlHoon / data-collector

[개인 프로젝트] 찍먹용 데이터 수집 프로젝트
5 stars 0 forks source link

[06_elk-stack] Mutate 가 없네요 #9

Closed qkfl2 closed 2 years ago

qkfl2 commented 2 years ago

https://github.com/ParkIlHoon/data-collector/blob/ae8dfa950433f9423cfd14f545d46c202236a3f1/logstash/pipeline/data-collect.conf#L1

큰 문제는 아니고, 출력되는 json 을 봐야 겠지만 엘라스틱서치는 "시계열 데이터베이스" 로도 분류되기 때문에 시계열 데이터가 있어야 합니다.(도큐먼트 데이터베이스이기도 하기 때문에 없어도 됩니다. 하지만 현재 다루는 데이터가 시계열 이기 때문에 있는게 맞습니다~) 기본적으로 @timestamp 필드를 키로 사용하기 때문에 mutate 에서 매핑해주는데 없네요 ^^;; 없어도 ISO 이나 몇몇 관습적으로 표현되는 날짜 데이터가 있으면 "키바나"가 자동으로 감지 하긴 합니다만 이건 키바나고...

그리고 mutate 랑 output 에 인덱스명이 없습니다~ 시계열 데이터베이스고 시계열은 기본적으로 대용량을 기반으로 하기 때문에 파티셔닝은 필수입니다~ ㅎㅎ 파티셔닝은 인덱스 명으로 이루어지기 때문에 보통 indexname-yyyy-mm-dd 와 같이 인덱스를 가져갑니다.(일단위, 월단위 등은 선택)

파티셔닝이 되면 데이터 조회/어그리게이션을 할때, 필요한 인덱스만 바라보기 때문에 빠르죠!! 근데 파티셔닝이 안되어 있으면 10년치 데이터하 한 인덱스에 들어가서... ㅋㅋㅋㅎㅎㅎ

추가로 샤딩은 병렬 처리에 영향을 줍니다~

이건 엘라스틱 뿐만 아니라 기존 RDBMS 에서도 동일한 개념이어서

파티셔닝/샤딩 두개를 공부하면 좋은 도움이 될 것 같아요!