Open sq1017 opened 1 year ago
aws 콘솔 내의 airflow ec2 서버 모니터링 로그로도 확인할 수 있었어요
해당 서비스 중단이 발생한 시점에 airflow 서버가 CPU 사용률 100%를 찍었네요. RAM Memory Usage는 기본 모니터링 플랜으로 확인할 수 없지만, CPU와 함께 수치가 높이 뛰었을 것으로 생각됩니다.
airflow 홈페이지 안의 dag operation fail log에서도 확인 가능해요.
현재 ec2 airflow 서버 메모리는 약 1G 입니다.
예상되는 해결방안?
https://velog.io/@jskim/Airflow-Task-Memory-%EC%82%AC%EC%9A%A9-%EC%B5%9C%EC%A0%81%ED%99%94%ED%95%98%EA%B8%B0
저희가 사용한 기간 동안의 크레딧을 확인해보니 ec2 서버의 스펙을 더 높이는 방향으로 충분히 가능할 것 같아, airflow ec2 서버를 vCPU 2, RAM 4GB로 업그레이드해 보았습니다. 문제가 발생하던 DAG#1에서의 dataframe 작업이 한결 안정화 되었네요!
현상 :
/var/lib/airflow/logs/dag_id=outsider_airflow_stock/run_id=manual__2023-09-15T02:40:38.003726+00:00/task_id=Stock_yf_to_db
해당 로그 내역 :
로그 중 [2023-09-15T12:16:55.952+0900] {standard_task_runner.py:172} ERROR - Job 12 was killed before it finished (likely due to running out of memory) 내용 확인 결과 해당 dag가 실행하는 python 스크립트 동작에 ec2 서버의 memory가 부족한 것으로 보임
저희가 다루는 data가 크지 않아서 ec2서버 스펙을 너무 최소한으로 잡았나 봅니다😂