Open milysun opened 5 years ago
连续抓取网页后服务器拒绝连接,换IP地址后可以重新抓取,但是错误抓取的网页已经存在arti.cache.list里,所以必须手动找出链接删掉才能补回这部分页面。
建议写入磁盘前简单检查html文件内容,发现访问过于频繁的错误信息后跳出循环,同时给出反馈信息。
好的, 感谢你的建议. 由于之前的测试, 并没有发现抓取网页被服务器拒绝, 所以没有考虑这块... 稍后的更新会修复这个问题.
连续抓取网页后服务器拒绝连接,换IP地址后可以重新抓取,但是错误抓取的网页已经存在arti.cache.list里,所以必须手动找出链接删掉才能补回这部分页面。
建议写入磁盘前简单检查html文件内容,发现访问过于频繁的错误信息后跳出循环,同时给出反馈信息。