Closed w3l7 closed 1 year ago
我尝试在getHtml时加一个空判断,没效果,推测是只有页面响应成功时才会进入此处代码,所以现在不能通过编程的手段确定丢失了哪些链接。
我判断了下状态码,结果表明凡是进入process方法的页面都是200
没被爬取的页面实测其响应码是500
重新描述一下情况: 待爬虫链接有300条,但爬虫结束后的结果数小于300条。这些链接去哪了?经测试这些链接的响应码是500,经过process方法的链接的响应码都是200。 我想要的效果是当webmagic检测到链接的响应码非200时可以自定义处理方法。
已解决,用代理模式包装了下Downloader组件
如何确定爬虫时丢失了哪些链接?