웹 크롤러 구조 - Githubissues

ywen407 commented 4 years ago

Master(Frontier)

url 관리(방문할 url 관리, 다운로드 해야할 url 관리)
Agent로부터 온 url 필터링(방문해야할 url로)
필터링된 URL agnet로 전송(멀티스레드시 분배?)

Slave(Agent)

Web으로부터 url 수집 후 프론티어로 전송
프론티어로부터 필터링 된 URl 분석 처리
분석처리 URL link,Resource link 추출
추출된 URL 프론티어로 전송

Monitor

Frontier와 Agent동작상태 모니터링 ,제어

기본적인 웹 크롤러 구조의 기본 틀은 대략 이렇게 되는거 같습니다. 위의 기본적인 틀로 추가할부분은 간단한것부터 점진직으로 먼저 구현하고 하면 좋을것 같습니다. 아래 블로그에 대략적인 정리가 잘 되어 있는것 같습니다. 어떻게 진행해야할지 또는 위에 사항에서 의견있으시면 달아주세요.

참고블로그 https://lyb1495.tistory.com/104

NamsooCho commented 4 years ago

긁어온 것을 저장은 어떤식으로 할 것인가요?

ywen407 commented 4 years ago

아마도 크롤러 특성상 관계형 DB보다 확장성이 더 좋은 MongoDB에 저장하는 방식으로 해야할것 같아요.

shhong7757 commented 4 years ago

구현

URL 파서
URL 캐싱
DNS Look up 캐싱

보안

DOS
Timing
ABA 문제

중요 사항

그린 스레드
캐싱

NamsooCho / Crawler_2

웹 크롤러 구조 #1

구현

보안

중요 사항