tonykang22 / study

0 stars 0 forks source link

02. 데이터 파이프라인이란? #163

Open tonykang22 opened 1 year ago

tonykang22 commented 1 year ago

데이터 파이프라인이란?

파이프라인이란?


image

Unix pipeline


데이터 파이프라인이란?

image

데이터 파이프라인의 기본 구성



image

간단한 예



Why, Who, How

Why


Who

image


How


image



image



image
tonykang22 commented 1 year ago

데이터 파이프라인 패턴

데이터 분석

image

과거 : 데이터 별로 분석 시스템을 따로 구축 및 관리



image

이후 : 데이터 웨어하우스로 모든 데이터를 모은 후 분석



정규화된 스키마 vs 스타 스키마



image


ETL


image

Reference : https://www.qlik.com/us/etl/etl-pipeline


ELT

image

Reference : https://www.qlik.com/us/elt


image

직무 별 책임을 명확하게 구분하여 효율적인 업무가 가능하다.



Data Lake


image

Reference : https://aws.amazon.com/ko/big-data/datalakes-and-analytics/what-is-a-data-lake/



Data Lake vs Data Warehouse

image



tonykang22 commented 1 year ago

데이터 파이프라인 오케스트레이션

오케스트레이션이란?


Example

image



image

workflow를 수행하기 위해 script, crontab 등을 사용할 수 있다.



Workflow 관리 도구의 필요성


Workflow 관리 도구 기능


DAG (Directed Acyclic Graph)

image


image

Example : Diablo II


image


image



실행 결과 알림 및 보관

image

Reference : https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff Reference : https://seamless.tistory.com/31



복구



오픈소스 워크플로 관리 도구 비교

image