Gerapy / GerapyAutoExtractor

Auto Extractor Module
https://pypi.org/project/gerapy-auto-extractor/
Apache License 2.0
321 stars 79 forks source link

对于分页页面爬取的建议 #5

Open zheyuan2025 opened 4 years ago

zheyuan2025 commented 4 years ago

对于分页页面的爬取,有一些标签容易引入到list或detail中(例如一些浮动的列表元素等),而这些内容在每个分页都会重复,建议对这部分重复的数据进行自适应检测,这部分不属于爬取的内容,属于噪声。