[airflow] datapipeline 만들기

일부 크롤러를 ubuntu server에서 사용해보자
- 국무부, 국방부, 백악관 크롤러 연결
- 이 크롤러들이 자동으로 csv로 정리되서 bucket에 원자료를 넣어주게 하자.
- 참고: bucket - 원자료(data lake), db - 정제된 labeld 자료(data warehouse)
현재 완성 flow : start >> [dod, whitehouse, dos] >> to_csv >> preprocessing >> complete
예상 flow:
- flow1 예측자료: start >> [dod, whitehouse, dos] >> to_csv >> preprocessing >> inference_label >> to_postgresql >>
complete
- flow2 원자료: start >> [dod, whitehouse, dos] >> to_csv >> to GCS
목표 완성 시간: 이번주 목요일(4.28)

JuwonOh / Tacademy-project