get_html_downloader->get_html_collector => 데이터를 파일로 저장하는것에서 데이터를 리턴하는 함수로 바꿈.(중복 체크를 위해서)
replicate_checker->수집한 데이터를 중복 체크를 하고 중복체크를 위해 checksum을 contents_table에 저장 , 없으면 파일로 저장
크롤러의 요소(Frontier, agent)부분을 크게 기능별로 crawling,conversion(데이터 db로), ranking 세 단계로 코드 분할.
get_html_downloader->get_html_collector => 데이터를 파일로 저장하는것에서 데이터를 리턴하는 함수로 바꿈.(중복 체크를 위해서) replicate_checker->수집한 데이터를 중복 체크를 하고 중복체크를 위해 checksum을 contents_table에 저장 , 없으면 파일로 저장 크롤러의 요소(Frontier, agent)부분을 크게 기능별로 crawling,conversion(데이터 db로), ranking 세 단계로 코드 분할.