issues
search
JuwonOh
/
Tacademy-project
2
stars
3
forks
source link
[airflow] datapipeline 만들기
#49
Open
JuwonOh
opened
2 years ago
JuwonOh
commented
2 years ago
일부 크롤러를 ubuntu server에서 사용해보자
국무부, 국방부, 백악관 크롤러 연결
이 크롤러들이 자동으로 csv로 정리되서 bucket에 원자료를 넣어주게 하자.
참고: bucket - 원자료(data lake), db - 정제된 labeld 자료(data warehouse)
현재 완성 flow : start >> [dod, whitehouse, dos] >> to_csv >> preprocessing >> complete
예상 flow:
flow1 예측자료: start >> [dod, whitehouse, dos] >> to_csv >> preprocessing >> inference_label >> to_postgresql >>
complete
flow2 원자료: start >> [dod, whitehouse, dos] >> to_csv >> to GCS
목표 완성 시간: 이번주 목요일(4.28)
JuwonOh
commented
2 years ago
중간 상황
data pipeline 구성.
dags는 start >> crawler >> complete_crawling >> to_csv >> to_bucket >> complete
airflow dags 모듈화를 염두에 두고, 서두 부분에 필요한 params를 빼두었다. 차후에 model pipeline과 연결한다.
데이터를 크롤링해서 간단히 data 전처리를 하고, Data warehouse에 모아두는 것으로 종결.
멘토님 comment 반영 사항
기존의 newsmodel preprocess은 기능 별로 분리된 모듈로 변환할 예정