Open hiber-niu opened 7 years ago
这个应该是返回 输入验证码的 页面了,用代理也不好使。 现在搜狗微信的屏蔽规则有点变化,我正在修改方案
是的,我调试的结果确实是跳转到验证码了,可是使用浏览器访问是不需要输入验证码的,那是哪里出了问题?
另外,不知道你现在进展的如何?是否有考虑识别验证码的方式来采集,我看搜狗的验证码是字母的,识别起来应该不是很难.
@yijingping 我也出现这个问题,用curl验证也确实是验证码的问题。但是我在爬虫服务器用curl -x (代理)访问是没问题的,所以我猜想是不是爬虫的下载程序没有正确使用代理。
已经使用代理,代理显示检测正常,但始终无法抓取文章,log文件中也没有报异常信息.使用的代理是利用多家免费代理测试后的可用代理.
代理通过运行getproxies 和checkproxies获取.
关键词爬取正常.
wechatspider_downloader.stderr.log文件内容: