Open sskmtm opened 1 year ago
之前的评论不准确。删了。
我也遇到这样的问题了,怎么解决?
估计是遇到反爬了。Amazon.com 如果检测到一个全新的浏览器一上来就开始搜索,它就会认为该访问是爬虫。
解决方法:在 onBrowserLaunched 事件中访问 referer 页面,快速打开快速关闭即可,让 amazon.com 看到合理的访问轨迹。
val hyperlink = ListenableHyperlink(url)
val be = hyperlink.event.browseEvent
be.onBrowserLaunched.addLast { page, driver ->
val warmUpUrl = "https://www.amazon.com/"
logger.info("Browser launched, warm up with url | {}", warmUpUrl)
driver.navigateTo(warmUpUrl)
}
在不使用代理的情况下,
main
分支代码可以正常运行在使用代理的情况下,总是不能正确的获取页面(持续很长时间都没有正确的爬取页面)
爬取的日志总是( 💯 🔃 S for RR got 200 2.64 KiB <- 2.64 KiB):
或者(💔 🔃 S for RR got 1601 2.64 KiB [💿4.40 KiB]):
其中, 爬取的链接:
https://www.amazon.com/s?k=sport+shoes
参数:-parse -refresh
爬取的页面:
在本地测试过,相同的链接,都在使用代理的情况下: 老版本可以爬取下来 新版本就会出现上面的情况