데이터 생성을 위한 로그 시뮬레이터 가동
Flume
Source -> Channel -> Sink의 구조를 가지며, 데이터를 수집하기 위한 기능을 담당
Kafka
대규모 메시지성 데이터 중계. Producer(데이터를 전송)와 Consumer(데이터를 소비)로 나뉘며 이를 중계하는 Broker가 중간에 존재
Storm
데이터를 인메모리 상에서 병렬 처리하기 위한 소프트웨어
Kafka로부터 받은 데이터를 각각 HBase, Redis로 나누어서 전달
Esper
실시간 스트리밍 데이터의 복잡한 이벤트 처리가 필요할 때 사용하는 룰 엔진
실시간 수집의 경우 Flume에서 수집이후 바로 적재를 진행하게 되면, Fault Tolerance
를 보장하지 못한다. 적재 시 HBase와 같은 곳에 오류가 발생하면, 실시간으로 수집되고 있는 데이터들이 손실될 수 있다.
HDFS
파일을 블록 단위로 나누어서 각 클러스터에 분산 저장
Zookeeper : 분산 코디네이터
분산 환경에서 작동되는 작업들을 감시, 감독(Supervisor)
HBase
Redis
Hive
Spark
In-memory 방식을 통해 Map-Reduce보다 데이터를 더욱 효율적으로 처리(적은 데이터의 경우 Spark나 Impala가 Hive보다 유용)
Oozie
Workflow 구성 가능
Hue
Web UI를 이용하여 HDFS 및 Query를 간편하게 이용 가능
managed_smartcar_status_info
)
smartcar_master_over18
, smartcar_status_info
이용managed_smartcar_drive_info
)
smartcar_master_over18
, smartcar_drive_info_2
이용managed_smartcar_symptom_info
)
managed_smartcar_drive_info
이용managed_smartcar_emergency_check_info
)
managed_smartcar_status_info
이용managed_smartcar_item_buylist_info
)
smartcar_master_over18
, smartcar_item_buylist
이용Hive 쿼리보다 빠른 실시간 분석(대화형 쿼리)을 위한 쿼리엔진. 대용량 배치처리보다는 ad-hoc 쿼리를 통한 빠른 질의결과를 요구
R과 HDFS를 서로 연결하여 원활한 데이터 분석 작업을 진행하기위한 툴. Spark를 기반으로 한다.
HDFS에 저장된 분석 결과를 외부에 있는 DB(Oracle, MySQL, PostgreSQL 등)에 전달
[참고 자료] 실무로 배우는 빅데이터 기술