leo8916 / wxhub

微信公众号-文章-无限制抓取
159 stars 51 forks source link

访问过于频繁,请用微信扫描二维码进行访问 #7

Open milysun opened 5 years ago

milysun commented 5 years ago

连续抓取网页后服务器拒绝连接,换IP地址后可以重新抓取,但是错误抓取的网页已经存在arti.cache.list里,所以必须手动找出链接删掉才能补回这部分页面。

建议写入磁盘前简单检查html文件内容,发现访问过于频繁的错误信息后跳出循环,同时给出反馈信息。

leo8916 commented 5 years ago

好的, 感谢你的建议. 由于之前的测试, 并没有发现抓取网页被服务器拒绝, 所以没有考虑这块... 稍后的更新会修复这个问题.