Closed seoyeong200 closed 6 months ago
리소스가 넉넉하다. 한 4개는 병렬로 돌려도 될듯
-metatable 기준으로 중복 적재 배치는 다시 안돌아가게 하니까 랩탑으로 수집해도 중간에 프로세스 끊고 나중에 재실행해도 된다! 편하고 좋다 굿
3개 병렬 실행 기준 평균 2.5GB 정도의 메모리를 사용 concurrent level 더 높게 잡고 돌려도 될듯
invoke.sh 실행할 때 concurrency level 아규먼트로 줘서 해당 수만큼 병렬로 스크래퍼 실행되도록 수정
6개 병렬로 돌렸을 때 리소스가 이정도 소모됨, 가상머신에 램 조금 더 줘서 8~9 까지 올려서 수집해도 좋을 것 같다. 데이터 수집 실행시간 진짜 단축 많이 될듯 ..네이버쇼핑한테 차단당하는거 아닌가 걱정이
각도 지으셨으니 이 정도 트래픽은 봐주시겟지......
issue
원인 파악, 검증
가능한 원인들
0. ~봇으로 감지~
1. 네이버에서 대량 스크래핑 코드 request를 차단하기 위해 aws 클라우드 ip범위를 막아놈
2. ~lambda에서 실행될 때 사용되는 user-agent 차단~
3. header, cookie 누락
취한 방법
로컬에서는 잘 동작하니 일단 랩탑 리소스 써서 데이터를 수집하고 있다. 로컬 환경에서 최대한 최적화를 해볼 수 있는 방법을 생각해보면