(❓지훈이형 코멘트에 대한 생각) 저는 A페이지와 B페이지가 같은 페이지인지 구분하기 위해 해시함수를 사용하므로, 웹 페이지 전체 String(html코드) 에 대해서 해시 함수 처리를 하는게 아닐까 생각했습니다.
미수집 URL 저장소에서 분산 크롤링을 진행하는데, 도메인 이름 변환기에서는 분산 서버를 운영하면 안되나?? 도메인 이름 변환기에 대해서는 책에서 캐시 처리 얘기만 나왔는데 수 백, 수 천 대의 서버로 분산 크롤링을 진행하면 도메인 이름 변환기도 분산 서버로 운영해야되지않을까?? ( 안되는 이유는 딱히 생각이 안나는데 안되는 이유가 있을까요?? )
DNS 는 외부에 이미 구축되어있는 서버를 보통 이용하므로 캐시 처리 정도만 얘기가 나온 것 같다. ( 우리 관할 X )
두 웹 페이지의 해시 값을 비교한다는 것은 HTML 문서를 문자열로 보고 비교하는 것보다 더 효과적일 것이라는 것에는 이견이 없지만, 해시는 입력 값이 서로 다르더라도 결과 값이 같아질 수 있는 충돌이 발생할 수 있다. 충돌을 해결하지 못하면 중복 컨텐츠가 아닌데도 컨텐츠를 저장하지 못하는 상황이 생기지 않을까? 의문
[Chapter 09] 웹 크롤러 설계