Cloudera-CDH-Study / Cloudera-CDH-study

1 stars 0 forks source link

4차 #5

Open zerocool530 opened 5 years ago

zerocool530 commented 5 years ago

진행

발표자

zerocool530 commented 5 years ago
Francis0121 commented 5 years ago

Apache Oozie

Oozie 등장배경

여러개의 MapReduce job을 서로 연결해 사용하면서, 각각의 Hadoop Job 에 대한 시작과 종결, 그 사이의 각종 분기조건 등을 지정해 자동화하거나 스케줄링 하도록 도와주는 서비스가 필요하여 등장하게 됨

Oozie 기본 개념

Java 기반의 Web Application Workflow Manage System (?) Workflow, Scheduler, Bundle 3가지의 Component 가 존재함

Workflow

Oozie는 Workflow를 방향성 비순환 그래프(DAG: Direct Acyclic Graph) 규칙에 의거해 규정 및 관리하고 있다. Workflow 는 Control Node, Action Node 를 가지고 있다. Workflow a sequence of jobs that will be put together n the right order that will be managed as a DAG cycle - Directed Acyclic Graph

  1. Control Node

    • 작업의 시작과 끝을 지정하거나, 작업 진행의 경로를 통제하는 역할을 가지는 Node
    • 작업의 시작과 끝을 지정하는 것으로 start node, end node
    • 작업 진행상의 경로 통제를 위한 각종 조건을 정의하는 것으로서는 decision node, fork node, join node 등.
  2. Action Node

    • 하나의 Workflow 실제로 계산 또는 처리 작업이 되는 곳
    • 수행되는 작업 : Hadoop Map Reduce, HDFS의 파일 시스템 관련 작업, Pig, SSH, HTTP, eMail 등
    • 각각의 작업들 간의 의존관계 (job dependency)를 지정하면 우지는 이러한 정보를 이용해서 실제의 작업이 지정한 대로 진행되도록 관리 (DAG)

Scheduler

scheduler is where I will be defining a particular workflow to get triggered on a regular interval

Bundle

bundle all the related workflows and coordinators will be put together

Document

Francis0121 commented 5 years ago

Hue

Hue 란 ?

hue web page

Document

cnabro commented 5 years ago
  1. 하둡 임팔라
  2. 스쿱 (rdbms -> hdfs)
kimduksoo commented 5 years ago
  1. Apache Hive - Manage, Setup HA, Beeline, WebHCat, HCatalog, Warehouse dir config Hive 는 HDFS를 질의문 형식으로 조작 한다.

  2. Sentry - Install, Configure , Role based authentication, LDAP Integration 룰 기반의 인증 시스템

zerocool530 commented 5 years ago

HBase - Hadoop Base - NoSQL Database

Flume - Single and Multi Agent Data Ingestion