NamsooCho / Crawler_2

연습 프로젝트 입니다.
MIT License
0 stars 1 forks source link

웹 크롤러 구조 #1

Closed ywen407 closed 4 years ago

ywen407 commented 4 years ago

Master(Frontier)

Slave(Agent)

Monitor

기본적인 웹 크롤러 구조의 기본 틀은 대략 이렇게 되는거 같습니다. 위의 기본적인 틀로 추가할부분은 간단한것부터 점진직으로 먼저 구현하고 하면 좋을것 같습니다. 아래 블로그에 대략적인 정리가 잘 되어 있는것 같습니다. 어떻게 진행해야할지 또는 위에 사항에서 의견있으시면 달아주세요.

참고블로그 https://lyb1495.tistory.com/104

NamsooCho commented 4 years ago

긁어온 것을 저장은 어떤식으로 할 것인가요?

ywen407 commented 4 years ago

아마도 크롤러 특성상 관계형 DB보다 확장성이 더 좋은 MongoDB에 저장하는 방식으로 해야할것 같아요.

shhong7757 commented 4 years ago

구현

  1. URL 파서
  2. URL 캐싱
  3. DNS Look up 캐싱

보안

  1. DOS
  2. Timing
  3. ABA 문제

중요 사항

  1. 그린 스레드
  2. 캐싱