Open zheyuan2025 opened 4 years ago
对于分页页面的爬取,有一些标签容易引入到list或detail中(例如一些浮动的列表元素等),而这些内容在每个分页都会重复,建议对这部分重复的数据进行自适应检测,这部分不属于爬取的内容,属于噪声。
对于分页页面的爬取,有一些标签容易引入到list或detail中(例如一些浮动的列表元素等),而这些内容在每个分页都会重复,建议对这部分重复的数据进行自适应检测,这部分不属于爬取的内容,属于噪声。