seoyeong200 / Book-data-Pipeline

책 줄거리를 기반으로 비슷한 책을 추천해주는 서비스를 위한 데이터 파이프라인입니다. 도커 환경에서 파이프라인을 구성하여 스파크를 사용해 배치 데이터를 처리합니다.
2 stars 0 forks source link

Local Spark 환경 구축 #12

Closed seoyeong200 closed 5 months ago

seoyeong200 commented 5 months ago

Related Issues

11

Descriptions

1. 로컬에 spark 환경 구축

reference : https://github.com/mvillarrealb/docker-spark-cluster/tree/master

위 레포를 기반으로 필요한 부분 수정하여 spark master, worker2개로 된 클러스터 도커로 구성

spark job 실행 커맨드

/opt/spark/bin/spark-submit --master spark://spark-master:7077 \
--driver-memory 1G \
--executor-memory 1G \
/opt/spark-apps/test.py

현재 컨테이너 접속해서 실행해야함 docker-compose up -d -> docker exec 커맨드 실행하는 쉘 스크립트 생성 필요 ✅

2. 로컬에 spark 환경 구축 - dev용 분석 환경

3. 데이터 처리 스크립트 - test

전처리

tfidf

Tests

s3 버킷 uri를 지정하여 해당 경로 아래 데이터 읽어오기 테스트 완료

Screenshots (optional)

Etc. (optional)