issues
search
snaag
/
snaag.github.io
https://snaag.github.io/
1
stars
0
forks
source link
하둡 Eco System
#12
Open
snaag
opened
6 days ago
snaag
commented
6 days ago
Reference
https://lms.kmooc.kr/course/view.php?id=12188
snaag
commented
6 days ago
Hadoop Eco System 이란
하둡 Eco System 이란
HDFS, YARN 에 추가해서 선택적으로 사용 가능한 컴포넌트들
하둡 에코 시스템 종류
데이터베이스
HBase
ETL (데이터 추출)
Apache Sqoop
ETL (데이터 추출)
Apache Flume
데이터 처리
Apache Pig
데이터 처리
Apache Hive
Workflow
Apache Oozie
Security
Apache Sentry
UI
Apache Hue
데이터베이스
HBase
HDFS
성능은 향상되지만 파일 이용 시 제약 사항이 존재함
업데이트가 되지 않고 index 가 없음
순차적으로 read
특정 데이터에 대한 서치 어려움
때문에 Hadoop 에서 Apache HBase 를 제공하고 주로 사용함
Apache HBase: 하둡 데이터 베이스
NoSQL 의 일종, HDFS 기반
빅데이터를 저장/관리할 수 있도록 확장 가능한 데이터베이스
수백테라, 페타바이트 가능
하나의 Table 에 수백,수천개의 Column 을 가질 수 있음
비정형 데이터 가능
각 row 에 대해서 insert, retrieve 가능
ETL (데이터 추출)
Apache Sqoop
데이터 소스에서 데이터를 ETL 작업을 수행하는 Eco-System
SQL <-> HDFS
SQL -> HDFS 로 읽어와 저장할 수 있음
HDFS -> SQL 로 읽어와 저장할 수 있음
cf. Apache Flume (로그 파일)
Apache Flume
서버의 로그 파일에서 데이터를 읽어서 가져옴
데이터 처리
MR, Spark 는 난이도가 있음
Apache Pig
Yahoo 에서 만듦
태초에는 Hadoop 을 다루기 쉬운 직관적인 스크립트 언어인
Pig Latin
로 개발됨
아파치 프로젝트에서 채택되어
Apache Latin
이 됨
실행 시 MR 이 알아서 만들어지고 실행됨
Apache Hive
SQL 과 거의 유사한 SQL Style 의 언어 (HiveQL)
Sqoop 과 결합하여 주로 사용
HDFS 의 파일을 RDBS 처럼 보고 프로그램 처리
인터프리터가 클라이언트에 있음
실행 시 MR 이 알아서 만들어지고 실행됨
UI
Apache Hue
Hadoop User Experience
웹 인터페이스 제공
UI 로 데이터에 쉽게 접근 가능
데이터 업로드, 쿼리 수행 등이 쉬움
Workflow
Apache Oozie
workflow: 조건에 따라 실행하는 흐름
ex. 에러가 발생하면, 이런 메시지를 보내라 등
Security
Apache Sentry
사용자의 Access Control 담당
대부분의 Component 와 연계
Reference