luohanfeng / spiderNotices

爬取东方财富公司公告文本
23 stars 11 forks source link

爬虫现在是否还有效,不报错也抓不到数据 #4

Closed baifengbai closed 4 years ago

luohanfeng commented 4 years ago

能用,反爬比较麻烦,增加了proxy_pool的代理池构建,需要自己先拉起这个服务

baifengbai commented 4 years ago

tushare pro的接口权限要求高了自己传个列表也行吧?谢谢了,再去试试

baifengbai commented 4 years ago

老哥加个微信可以吗bai7426,pdf文档的提取之前项目有做过发给你

luohanfeng commented 4 years ago

老哥加个微信可以吗bai7426,pdf文档的提取之前项目有做过发给你

还不能部署吗。首先照这个项目[https://github.com/jhao104/proxy_pool]部署一下代理池,或者在settings.py中把代理中间件注释掉不用也行

然后启动本项目的run_realtime.py。调试修改的话,启动项目内的main.py进到spiders目录下的爬虫类进行调试

baifengbai commented 4 years ago

链接: https://pan.baidu.com/s/1wLScaX8baJaUdJu2xfzKyQ 提取码: gc9j 复制这段内容后打开百度网盘手机App,操作更方便哦 pdf和docx解析为字符串,希望有点用,谢谢指点