code4craft / webmagic

A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.38k stars 4.18k forks source link

待爬取的链接数正常,但爬取结束后的结果数和链接数不一致 #1104

Closed w3l7 closed 1 year ago

w3l7 commented 1 year ago

如何确定爬虫时丢失了哪些链接? image

w3l7 commented 1 year ago

我尝试在getHtml时加一个空判断,没效果,推测是只有页面响应成功时才会进入此处代码,所以现在不能通过编程的手段确定丢失了哪些链接。

w3l7 commented 1 year ago

image 我判断了下状态码,结果表明凡是进入process方法的页面都是200

w3l7 commented 1 year ago

没被爬取的页面实测其响应码是500

w3l7 commented 1 year ago

重新描述一下情况: 待爬虫链接有300条,但爬虫结束后的结果数小于300条。这些链接去哪了?经测试这些链接的响应码是500,经过process方法的链接的响应码都是200。 我想要的效果是当webmagic检测到链接的响应码非200时可以自定义处理方法。

w3l7 commented 1 year ago

已解决,用代理模式包装了下Downloader组件 image