Encore-final-team-project / Dynamic-Indices-cluster

Bigdata Clustering with Blanace Sheet and Stocks
Eclipse Public License 2.0
2 stars 1 forks source link

[ EMR ] 서비스 관련 Info #23

Closed Juny2312 closed 10 months ago

Juny2312 commented 10 months ago

EMR 서비스 사용에는 Serverless 와 EC2기반의 작업이 있습니다 Serverless는 가볍고 Job Submit도 매우 간단합니다. 바로 UI 도 볼 수 있구요

아래 영상보시면 Airflow 에서 Servrless AWS Pyspark Dag를 작성할 수 있는 튜토리얼 입니다!

https://www.youtube.com/watch?v=TZHnLhCqdNg

화면 캡처 2023-08-29 184953

화면 캡처 2023-08-29 185040

화면 캡처 2023-08-29 185139

화면 캡처 2023-08-29 185302

화면 캡처 2023-08-29 185330

화면 캡처 2023-08-29 185359

화면 캡처 2023-08-29 185528

화면 캡처 2023-08-29 185619

화면 캡처 2023-08-29 185657

Juny2312 commented 10 months ago

여기서 Glue 라는 데이터 변환 라이브러리를 스크립트 작성 시, 사용하면 Severless 로 autoscaling 이 되면서 데이터 aggregation 이나 groupby , join이 간단히 해결됩니다

Glue란? (1) https://eprj453.github.io/aws/2020/12/10/AWS-Glue-Job/ (1) (2) https://jaynamm.tistory.com/entry/AWS-Glue-%EA%B0%9C%EB%85%90-%EC%A0%95%EB%A6%AC (2)

Juny2312 commented 10 months ago

Serverless EMR 클러스터를 가용한 Glue script 작성 예정