NamsooCho / Crawler_2

연습 프로젝트 입니다.
MIT License
0 stars 1 forks source link

code is splited depending on features, impl replicate_checker #9

Closed ywen407 closed 4 years ago

ywen407 commented 4 years ago

get_html_downloader->get_html_collector => 데이터를 파일로 저장하는것에서 데이터를 리턴하는 함수로 바꿈.(중복 체크를 위해서) replicate_checker->수집한 데이터를 중복 체크를 하고 중복체크를 위해 checksum을 contents_table에 저장 , 없으면 파일로 저장 크롤러의 요소(Frontier, agent)부분을 크게 기능별로 crawling,conversion(데이터 db로), ranking 세 단계로 코드 분할.