code4craft / webmagic

A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.37k stars 4.18k forks source link

请教怎样控制爬虫延时或者暂停? #1129

Open Mr-LiuDC opened 11 months ago

Mr-LiuDC commented 11 months ago

例如我在爬取网站时触发了网站的防护机制,当我判断出网站有进行防护时,我该怎样控制爬虫让它过一段时间再抓取?

18547601391 commented 8 months ago

在processor中有个site变量,里面有控制抓取间隔、重试次数

Mr-LiuDC commented 6 months ago

在processor中有个site变量,里面有控制抓取间隔、重试次数

这是全局的配置,没法对某次的请求进行设置。

18547601391 commented 6 months ago

你是怎样判断出网站有进行防护的?