Closed Juny2312 closed 10 months ago
여기서 Glue 라는 데이터 변환 라이브러리를 스크립트 작성 시, 사용하면 Severless 로 autoscaling 이 되면서 데이터 aggregation 이나 groupby , join이 간단히 해결됩니다
Glue란? (1) https://eprj453.github.io/aws/2020/12/10/AWS-Glue-Job/ (1) (2) https://jaynamm.tistory.com/entry/AWS-Glue-%EA%B0%9C%EB%85%90-%EC%A0%95%EB%A6%AC (2)
Serverless EMR 클러스터를 가용한 Glue script 작성 예정
EMR 서비스 사용에는 Serverless 와 EC2기반의 작업이 있습니다 Serverless는 가볍고 Job Submit도 매우 간단합니다. 바로 UI 도 볼 수 있구요
아래 영상보시면 Airflow 에서 Servrless AWS Pyspark Dag를 작성할 수 있는 튜토리얼 입니다!
https://www.youtube.com/watch?v=TZHnLhCqdNg