Hive - Githubissues

3. Hive : Hadoop ecosystem

Hadoop의 Data Warehousing Package 이다.

RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법 제공
데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법 제공

3-1. Hive Architecture

1. Client가 쿼리를 실행한다. 
2. Driver가 쿼리 플랜을 Compiler에게 요청한다. 
3. Compiler는 쿼리에 해당하는 맵리듀스 코드를 생성한다. 

    3-1. MetaStore를 통해 하이브의 메타데이터(컬럼 정보, 컬럼 매핑)를 가져와 사용한다. 

    3-2. 쿼리 플랜을 생성한다. 

    3-3. 쿼리 플랜을 Execution Engine에 전달한다. 

4. Execution Engine은 Hadoop에 MapReduce Job을 요청하고 Job의 결과를 받아 전달한다.

3-2. Hive 와 차세대 SQL on Hadoop 비교

Hive
- 맵리듀스를 사용하여 하드디스크를 많이 사용하고 불필요한 기록을 하는 경우가 많아 속도 저하의 요인이 많다.
- Long time query 를 처리하는데 용이하다.
  - 만일 빠른 처리가 필요한 비정형 쿼리나 OLTP 영역에서는 RDBMS를 사용해야한다.
차세대 SQL on Hadoop
- 맵리듀스를 사용하지 않고 자체 엔진을 사용하여 실시간 쿼리가 가능하다.
  
  비정형 쿼리(ad-hoc query)를 지원하고 하이브와 호환을 위한 metastore 사용을 지원한다.
- Impala 의 경우 Long Time query 를 제대로 수행하지 못하거나 데이터 크기가 커질 수록 성능이 떨어진다.

쿼리 종류

Batch
- OLAP용 : 배치성
- Hive
Interactive
- OLTP용 : 실시간성
- Spark , Impala

3-3. Hive Table

External Table

테이블 스키마만 Hive에서 관리한다. 하둡에 있는 데이터를 기반으로 테이블을 만들기 때문에 스키마만 정해주면 된다.
테이블(스키마) 따로, 파일(데이터)을 따로 관리하기 때문에 안전하다 → Loosely Coupled
사용자의 실수를 방지하기 위해 많이 사용한다.
메타 스토어를 유지해야하는 경우라면 외부 메타스토어를 생성해야한다.

Managed Table

데이터와 스키마를 모두 Hive에서 관리한다.
Managed Table / Internal Table 을 생성하면 파일이 기본 저장 경로인 /user/hive/warehouse 에 저장된다.
External Table 과 다르게 drop 하면 데이터와 스키마가 함께 삭제되기 때문에 주의해야한다.
클러스터가 종료되면 마스터 노드를 포함하여 모든 클러스터 노드가 종료되고, 휘발성 스토리지를 사용하므로 로컬 데이터가 손실된다.

Managed Table의 경우 데이터가 warehouse directory에 저장되지만 External Table의 경우 데이터를 저장할 위치를 지정하고 테이블을 생성한다.

3-4. Hive with HDFS / S3

API 를 이용해서 HDFS나 S3에 데이터를 저장할 수 있다.

HDFS
- 분산 파일 시스템
- 대량의 데이터 처리에 유리
- 큰 사이즈 파일에 최적화
- 네임노드가 메타 데이터를 관리하고 데이터 노드가 데이터를 블록단위로 저장
- Hadoop FileSystem API , Hadoop fs 커맨드, Web UI로 접근 가능
Hive + HDFS
- 높은 I/O performance 가 필요한 경우
- 잦은 데이터 접근할 경우
- Temporary data
- High consistency : 높은 일관성이 필요로할 때
- storage 와 I/O 에 대해 고정적인 비용 지불을 원할 때
- 네트워크 대역폭 영향에 따른 선택
S3
- Object Storage ( File System X )
- 확장성, 고가용성, 내구성, 보안
- 저장 용량과 API요청 횟수에 따른 과금
- Directory System , File System 이 아닌 Key 기반 데이터 저장
- Rest API, AWS CLI, AWS SDK , S3 콘솔로 접근 가능
  - API 종류 : S3FileSystem , NativeS3FileSystem, S3AFileSystem(on-premise, other cloud, Hadoop/Spark on EC2 ) , EMRFS
Hive + S3
- 고가용성과 내구성을 원할 때
- 오랜 기간 데이터가 저장되어야할 때
- 데이터사이즈가 작아 HDFS 까지의 비용이 필요없을 때
- 데이터 사이즈가 크고, 급격하게 늘어날 수 있을 때 ( 확장성 측면 )
- Computing cluster 와 분리하고 싶을 때 ( cluster 종료와 연관 )
- 다양한 클러스터가 하나의 file system 을 공유하고 싶을 때
- 보안을 일괄적용하고 싶을 때

[ 참고 자료 ]

Hive Architecture : https://wikidocs.net/23282
https://dataonair.or.kr/db-tech-reference/d-guide/data-practical/?mod=document&uid=404

su3inni / cs-study

Hive #13

3. Hive : Hadoop ecosystem

3-1. Hive Architecture

3-2. Hive 와 차세대 SQL on Hadoop 비교

3-3. Hive Table

3-4. Hive with HDFS / S3