Related Issues

11

위 레포를 기반으로 필요한 부분 수정하여 spark master, worker2개로 된 클러스터 도커로 구성

aws 관련 jar파일, conf 추가 (s3와 connect 필요)
- spark version = 3.0.2
- hadoop versoin = 3.2
- hadoop-aws-2.3.0.jar
- aws-java-sdk-bundle-1.11.375.jar
aws 관련 환경변수 추가
docker-compose 사용해서 클러스터 띄움

spark job 실행 커맨드

/opt/spark/bin/spark-submit --master spark://spark-master:7077 \
--driver-memory 1G \
--executor-memory 1G \
/opt/spark-apps/test.py

현재 컨테이너 접속해서 실행해야함 docker-compose up -d -> docker exec 커맨드 실행하는 쉘 스크립트 생성 필요 ✅

s3 버킷 uri를 지정하여 해당 경로 아래 데이터 읽어오기 테스트 완료