Boris-code / feapder

🚀🚀🚀feapder is an easy to use, powerful crawler framework | feapder是一款上手简单,功能强大的Python爬虫框架。内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。且支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统feaplat为其提供方便的部署及调度
http://feapder.com
Other
2.81k stars 470 forks source link

使用requests可以正常请求,使用feapder提示浏览器版本过低,有点搞不懂 #129

Closed lscool66 closed 2 years ago

lscool66 commented 2 years ago

import feapder

class CantonfairAirSpider(feapder.AirSpider): def start_requests(self): yield feapder.Request("https://www.cantonfair.org.cn",verify=True)

def parse(self, request, response):
    html = response.text
    print(html)

if name == "main": CantonfairAirSpider().start()

Boris-code commented 2 years ago

贴下日志,可能是你urllib3版本低

lscool66 commented 2 years ago

贴下日志,可能是你urllib3版本低

C:\Users\lscoo\AppData\Local\Programs\Python\Python38\python.exe D:/projects/test/feapder-spiders/spiders/cantonfair_air_spider.py 当前工作路径为 D:\projects\test\feapder-spiders\spiders <Request https://www.cantonfair.org.cn> <!DOCTYPE html>

浏览器版本过低
浏览器版本过低
请切换或升级浏览器,以获得更安全环境及更佳体验。

2021-11-18 11:22:52.155 | INFO | feapder.core.spiders.air_spider:run:104 - 无任务,爬虫结束

进程已结束,退出代码为 0

lscool66 commented 2 years ago

C:\Users\lscoo\AppData\Local\Programs\Python\Python38\python.exe D:/projects/test/feapder-spiders/spiders/cantonfair_air_spider.py 当前工作路径为 D:\projects\test\feapder-spiders\spiders C:\Users\lscoo\AppData\Local\Programs\Python\Python38\lib\site-packages\requests__init__.py:89: RequestsDependencyWarning: urllib3 (1.26.7) or chardet (3.0.4) doesn't match a supported version! warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported " <Request https://www.cantonfair.org.cn> <!DOCTYPE html>

浏览器版本过低
浏览器版本过低
请切换或升级浏览器,以获得更安全环境及更佳体验。

2021-11-18 11:25:33.096 | INFO | feapder.core.spiders.air_spider:run:104 - 无任务,爬虫结束

进程已结束,退出代码为 0

kk-deng commented 2 years ago

我发现随机UA有时候的chrome header版本号是23这种低版本的,现在都96了。不知道是不是这原因导致,如果能给一个随机UA是高版本号的选择就好了

lscool66 commented 2 years ago

我发现随机UA有时候的chrome header版本号是23这种低版本的,现在都96了。不知道是不是这原因导致,如果能给一个随机UA是高版本号的选择就好了

还真是这样,关闭随机ua就好了

kk-deng commented 2 years ago

我发现随机UA有时候的chrome header版本号是23这种低版本的,现在都96了。不知道是不是这原因导致,如果能给一个随机UA是高版本号的选择就好了

还真是这样,关闭随机ua就好了

刚看了里面的随机 user_agent.py pool,发现这文件内容是2016年的,所以这pool里面的UA都太老了。遇到一些检查UA的网站估计就像你遇到的情况一样。如果作者没空更新的话,我可以去搜集一些最新的提交PR。