Scrapping Lambda failure

seoyeong200 commented 8 months ago

issue

ip가 차단된것같은데, 생각해보면 람다를 다시 실행할 때마다 aws 클러스터 물리 가용자원 상황에 따라서 함수가 실행되는 서버/컨테이너 인스턴스가 달라질 수 있으니까 ip 주소도 달라질 수 있을 것 같다.
- 그럼 물론 매번 다른 ip 주소를 보장하는 것도 아님
- aws 클라우드 대역폭 자체를 막아놓았을 가능성이 있구나

가능한 원인들

로컬에서는 잘 동작하니 일단 랩탑 리소스 써서 데이터를 수집하고 있다. 로컬 환경에서 최대한 최적화를 해볼 수 있는 방법을 생각해보면

컨테이너 프로세스를 2개씩 concurrent하게 돌린다.
하나의 컨테이너 프로세스에서는 invoke.sh 에서 json 제일 상위 key 다 뽑아와서 10개(정도?)의 key에 대해서 스크래핑을 실행한다.
해당 프로세스에 필요한 리소스 maximum을 파악해 봤을 때 RAM <=4GB, CPU <=5% 정도였다. 메모리는 4GB까지 올라가지는 않고 3.5~3.8 정도에서 왔다갔다 하는 것 같다. CPU는 0에서 5.x% 를 웃돈다.
현재 랩탑 사양이 16 RAM, 6 Core, 도커 할당 max 리소스 메모리 7.9, cpu 12니까 메모리 리밋 늘린다고 해도 프로세스 3-4개 병렬로 돌리는건 좀 위험할 것 같다. 2개까지는 가능

seoyeong200 commented 8 months ago

데이터 수집 중인데 문제점과 개선되어야 할 점들이 몇가지 보인다.
1. 카테고리 묶어서 실행 람다 최대 실행시간 15분을 고려해서 컨테이너 한 사이클 동안 카테고리를 임의로 묶어서 실행되도록 했는데, 15분 넘어서 중간에 종료되는 경우가 발생한다. 상위 카테고리의 작업 완료 여부를 metatable에 기록하기 때문에 하위 specific한 실패지점 기록이 안된다. 그니까 "소설" 카테고리에 "나라별 소설" , "고전/문학", "장르소설", "테마소설" 이 있는데 테마소설 수집하다가 종료되어도 소설 status는 FAIL이다. 🛑 그냥 상위 카테고리 없애는것도.. 괜찮을듯

컨테이너 싱글로 떠서 진행 메모리 터질 것 같아서 그냥 원타임원컨테이너(?)로 실행하는데 막상 테스트를 돌려보니
리소스가 넉넉하다. 한 4개는 병렬로 돌려도 될듯

-metatable 기준으로 중복 적재 배치는 다시 안돌아가게 하니까 랩탑으로 수집해도 중간에 프로세스 끊고 나중에 재실행해도 된다! 편하고 좋다 굿

seoyeong200 commented 8 months ago

3개 병렬 실행 기준 평균 2.5GB 정도의 메모리를 사용 concurrent level 더 높게 잡고 돌려도 될듯

seoyeong200 commented 8 months ago

invoke.sh 실행할 때 concurrency level 아규먼트로 줘서 해당 수만큼 병렬로 스크래퍼 실행되도록 수정

6개 병렬로 돌렸을 때 리소스가 이정도 소모됨, 가상머신에 램 조금 더 줘서 8~9 까지 올려서 수집해도 좋을 것 같다. 데이터 수집 실행시간 진짜 단축 많이 될듯 ..네이버쇼핑한테 차단당하는거 아닌가 걱정이

각도 지으셨으니 이 정도 트래픽은 봐주시겟지......