Closed seoyeong200 closed 5 months ago
reference : https://github.com/mvillarrealb/docker-spark-cluster/tree/master
위 레포를 기반으로 필요한 부분 수정하여 spark master, worker2개로 된 클러스터 도커로 구성
spark job 실행 커맨드
/opt/spark/bin/spark-submit --master spark://spark-master:7077 \ --driver-memory 1G \ --executor-memory 1G \ /opt/spark-apps/test.py
현재 컨테이너 접속해서 실행해야함 docker-compose up -d -> docker exec 커맨드 실행하는 쉘 스크립트 생성 필요 ✅
s3 버킷 uri를 지정하여 해당 경로 아래 데이터 읽어오기 테스트 완료
Related Issues
11
Descriptions
1. 로컬에 spark 환경 구축
reference : https://github.com/mvillarrealb/docker-spark-cluster/tree/master
위 레포를 기반으로 필요한 부분 수정하여 spark master, worker2개로 된 클러스터 도커로 구성
spark job 실행 커맨드
현재 컨테이너 접속해서 실행해야함 docker-compose up -d -> docker exec 커맨드 실행하는 쉘 스크립트 생성 필요 ✅
2. 로컬에 spark 환경 구축 - dev용 분석 환경
3. 데이터 처리 스크립트 - test
전처리
tfidf
Tests
s3 버킷 uri를 지정하여 해당 경로 아래 데이터 읽어오기 테스트 완료
Screenshots (optional)
Etc. (optional)