현재 생각하고 있는 크롤러.

ywen407 commented 4 years ago

단순히 크롤러의 역할에서 보면, 초기 Seed URL과 하위 URL들 및 리소스들을 수집하는 역할을 하는 것입니다. 지금 현재 구현되고 있는 크롤러는 검색엔진 위한 크롤러로 카이스트에서 대용량 검색 엔진을 위한 병렬 웹크롤러 논문을 기반으로 디자인한것입니다. 그래서 Ranking에 대한 부분은 솔직히 검색엔진을 위한 기능같은데.. PageRank 알고리즘을 통해서 웹페이지 우선순위를 매기는 부분입니다. 단순히 크롤러만 생각한다면 랭킹부분이 좀 애매한 부분도 있는것 같습니다. (그렇다면 검색엔진도 필요한것같기도하고) 수집하는 것에서 그치는 것이 아니라 검색엔진을 위해서 웹사이트의 랭킹을 매기는 것까지 구현되어 있으며, 암시적으로 그 부분까지 일단 생각을 하고 있는데 어떻게 할지 고민은 하고 있습니다.

또한 앞으로 Crawler부분에서 구현해야 될것은 일단 Agent와 Frontier가 어떤 방식으로 통신할 것인지(일단 단순히 해당 object변수를 넘기는걸로 되어있음), agnet는 멀티 쓰레딩으로 할것인지 아니면 단일로 멀티 프로세싱으로 하게끔 할것인지. 비동기로 처리할것인지, html parser를 구현해서 리소스와 URl을 추출해야 하며, 어떤것을 파싱하고, db에 넣을것인지.....

그 후는 검색엔진...?

일단 생각은 이렇습니다.

NamsooCho commented 4 years ago

우선 순위를 매겨서 어떻게 한다는 것인가요?

ywen407 commented 4 years ago

솔직하게 어떻게 해야될지 잘 모르겠습니다. 해당 웹페이지를 파싱한 데이터를 가지고 우선순위에 따라서 단순히 출력하거나 아니면 검색엔진을 간단하게 만들어서 해야되는건지.. 또한 이렇게 안하고 단순히 크롤링을 해서 수집만 하는 것 외에 무엇을 추가해서 해야할지 막막함이 좀 있는것 같습니다.

NamsooCho / Crawler_2

현재 생각하고 있는 크롤러. #11