seoyeong200 / Book-data-Pipeline

책 줄거리를 기반으로 비슷한 책을 추천해주는 서비스를 위한 데이터 파이프라인입니다. 도커 환경에서 파이프라인을 구성하여 스파크를 사용해 배치 데이터를 처리합니다.
2 stars 0 forks source link

feature : modelling #14

Closed seoyeong200 closed 3 months ago

seoyeong200 commented 5 months ago

Related Issues

15

11

1

architecture, pipeline flow

🟦 일단 전체 데이터 프로세싱 해보고 진행 과정에서 OOM 등 문제 발생할 시 해당 작업을 고려해보자.

영어 줄거리 도서(영어 도서) 누락 발생

🟦 ~일단 제외해서 결과 저장, api 구현부터 하고 다시 돌아오자.~

Screenshot 2024-03-25 at 7 06 01 PM

Descriptions

1. data processing package 추가

수집한 데이터 transform

2. Logger Object 추가

Tests

Screenshots (optional)

Etc. (optional)