seoyeong200 / Book-data-Pipeline

책 줄거리를 기반으로 비슷한 책을 추천해주는 서비스를 위한 데이터 파이프라인입니다. 도커 환경에서 파이프라인을 구성하여 스파크를 사용해 배치 데이터를 처리합니다.
2 stars 0 forks source link

Logs & Env variables Management #15

Open seoyeong200 opened 3 months ago

seoyeong200 commented 3 months ago

problem1. 로깅 방식

stream handler로 로그 표준출력했을때, 수집 단계에서 로그 확인에 문제있음 invoke.sh 스크립트 실행 시 지정한 concurrency level에 맞게 람다 동작 이후 컨테이너가 삭제되기 떄문에 작업 실패 후 컨테이너가 삭제되면 해당 로그를 확인할 수 없음 파일 형태로 관리해야 할 것 같아 일단 logger 클래스는 handler를 지정해서 인스턴스 생성할 수 있도록 리팩토링을 해두었는데,

how am i solve it?

Screenshot 2024-03-28 at 4 17 24 PM
seoyeong200 commented 3 months ago

네이버 책 프론트 개편으로 scrapper 동작 작동하지 않음, 데이터 update 불가

seoyeong200 commented 3 months ago

refactor logging instance

  1. 인스턴스 생성 시에 핸들러 filehandler / streamhandler 둘 중 하나 선택해서 생성할 수 있도록 한다.
  2. 두 핸들러 모두 갖는 Logger 만들어지도록 한다.

1 방법에서 2 방법으로 수정했다. 오히려 선택 가능성을 열어두니까 생성 시 코드가 더 불필요하게 지저분해졌기 때문이다.