oppenheimer-joa / movie-API

슬.문.생 서비스를 지탱하고 있는 API 서버 입니다.
2 stars 0 forks source link

[API] bulk 데이터 적재 보고서 #47

Open hooniegit opened 1 year ago

hooniegit commented 1 year ago

안녕하세요, 팀 슬문생의 멤버 김도훈, 황수빈입니다.

🧑‍🏭 개요

spark 처리를 위한 bulk 데이터 적재 과정에서의 적재 속도 및 리소스 사용량에 대한 간략한 보고서를 제공해 드리겠습니다. 보고서에 포함되는 내용은 다음과 같습니다.

# MySQL
- 데이터 입력 속도

# RAW 데이터
- 스크립트 적재 속도
- 리소스 사용량

리소스 모니터링

어제자 오후 10시 50분 경 동작중이던 스크립트는 아래와 같습니다.

오늘 오전 9시 30분 기준으로 스크립트 전체가 동작을 멈추었습니다. 메모리 사용량 모니터링 결과는 아래를 참고해주시기 바랍니다.

스크린샷 2023-09-01 오후 12 18 25

낱개의 피크 포인트가 존재하며, 23시를 기점으로 리소스 사용량이 감소하였으나 스크립트는 정상 동작하여 데이터는 지속적으로 적재되는 것을 확인하였습니다.

🕙 데이터 입력 속도

mysql> select count(*) from people;
+----------+
| count(*) |
+----------+
|   683203 |
+----------+
1 row in set (0.11 sec)

mysql> select count(*) from people;
+----------+
| count(*) |
+----------+
|   684136 |
+----------+
1 row in set (0.09 sec)

소요 시간 : 30 [line/sec] 총 입력량 : 총 소요량 :

🕐 스크립트 적재 속도

🎥 TMDB

소요 시간 : 4 [file/sec] 총 적재량 : 670000 [almost] 총 소요량 :

👯 kopis

소요 시간 : 1.8 [file/sec] 총 적재량 : 58600 [file] 총 소요량 :

🎥 kobis

소요 시간 : 1.5 [file/sec] 총 적재량 : 6200 [almost] 총 소요량 : 4000 [sec, almost]

🎧 spotify

소요 시간 : 총 적재량 : 총 소요량 :

💻 리소스 사용량

Google Cloud Instance(2 CORE, 16GB) 환경에서 데이터 적재를 진행하고 있습니다. 현재 백그라운드에서 실행되고 있는 스크립트들은 아래와 같습니다.

neivekim76@workspace-hoonie:~/sms/bulk/src$ sudo ps aux | grep tmdb
neiveki+   10904  6.5  0.1  38140 31332 pts/0    S    08:13   9:36 python3 tmdb_credits.py
neiveki+   11285  5.8  0.1  37592 30936 pts/0    S    09:25   4:24 python3 tmdb_details.py
neiveki+   11314  5.5  0.1  38140 31472 pts/0    S    09:27   4:04 python3 tmdb_images.py
neiveki+   11415  5.9  0.1  37616 30620 pts/0    S    09:38   3:42 python3 tmdb_similar.py
neiveki+   14623  0.0  0.0   8168   720 pts/0    S+   10:40   0:00 grep --color=auto tmdb

cpu 리소스 사용량

스크린샷 2023-08-31 오후 7 12 23

16GB 리소스 중 약 8%를 사용중이며, 그중 3% 비율이 대시보드로 사용되고 있습니다. 파이썬 스크립트로 소요되는 메모리 소비량은 매우 적은 것으로 예상됩니다.

스크린샷 2023-08-31 오후 8 14 04

2코어 CPU 리소스 중 약 18%를 사용중이며, 그중 3% 비율이 대시보드로 사용되고 있습니다. 파이썬 스크립트로 소요되는 CPU 소비량 역시 매우 적은 것으로 예상됩니다.

soobeen-byul commented 1 year ago

KOPIS Bulk 데이터 수집

변경 사항