su3inni / cs-study

0 stars 0 forks source link

Hive #13

Open su3inni opened 10 months ago

su3inni commented 10 months ago

3. Hive : Hadoop ecosystem

Hadoop의 Data Warehousing Package 이다.

3-1. Hive Architecture

1. Client가 쿼리를 실행한다. 
2. Driver가 쿼리 플랜을 Compiler에게 요청한다. 
3. Compiler는 쿼리에 해당하는 맵리듀스 코드를 생성한다. 

    3-1. MetaStore를 통해 하이브의 메타데이터(컬럼 정보, 컬럼 매핑)를 가져와 사용한다. 

    3-2. 쿼리 플랜을 생성한다. 

    3-3. 쿼리 플랜을 Execution Engine에 전달한다. 

4. Execution Engine은 Hadoop에 MapReduce Job을 요청하고 Job의 결과를 받아 전달한다.

3-2. Hive 와 차세대 SQL on Hadoop 비교

쿼리 종류

3-3. Hive Table

External Table

Managed Table

Managed Table의 경우 데이터가 warehouse directory에 저장되지만 External Table의 경우 데이터를 저장할 위치를 지정하고 테이블을 생성한다.

3-4. Hive with HDFS / S3

API 를 이용해서 HDFS나 S3에 데이터를 저장할 수 있다.

[ 참고 자료 ]