gogunbuntu-study / system-design-interview

가상 면접 사례로 배우는 대규모 시스템 설계 기초
4 stars 0 forks source link

[Ch 09. 웹 크롤러 설계] 완전 중복인 데이터가 어쩌다 29%나 될까? #12

Open S00ahKim opened 2 years ago

S00ahKim commented 2 years ago

완전 중복인 데이터가 어쩌다 29%나 될까? 여기에는 단순 복붙 사이트도 포함될까?

별개로 단순히 구글 번역 돌려서 사이트 복제한 것도 요새 검색 결과에 너무 많이 나오는듯... 그런데 이게 다 검색되는걸 보면 중복 필터링은 내용보다는 완전 똑같음 위주인건가?

yoon-chaejin commented 2 years ago

책 내 Reference 문서 [참고1 Study: 29% Of Sites Face Duplicate Content Issues & 80% Aren’t Using Schema.org Microdata] [참고2 fingerprinting by random polynomials] [참고3 Rabin fingerprint]