shibing624 / python-tutorial

Python实用教程,包括:Python基础,Python高级特性,面向对象编程,多线程,数据库,数据科学,Flask,爬虫开发教程。
Apache License 2.0
1.98k stars 401 forks source link

关于爬虫板块的设计 #11

Closed jiangyangcreate closed 1 year ago

jiangyangcreate commented 1 year ago

想问一下作者目前对爬虫这块教程有打算系统的规划一下吗?刚好我自己2022年年底有整理完整的爬虫学习路径,每个模块也有对应的示例,没有直接提PR的原因是能看出来爬虫这块教程还没完善,直接提PR可能会扰乱你原本的更新计划。

1 基础学习 multiprocessing 多进程 threading 多线程 asyncio 多协程 2 程序发起请求 urllib 仅支持HTTP1.0 仅同步 语法复杂 解析链接/分析robots协议 很好用 request 仅支持HTTP1.0 仅同步 aiohttp 支持HTTP2.0 仅异步 httpx 支持HTTP1.1/2.0 同步异步双卡双待 3 模拟浏览器发起请求 Selenium 老牌模拟浏览器 仅同步 Pyppeteer 仅支持谷歌浏览器,异步 Playwright 支持三种不同浏览器,异步,微软背书,月更 4 模拟APP发起请求 mitidump 最适合Python抓包的模块 appnium 手机端模拟操作集成者 Airtest 网易的手机端模拟操作 adbutils 手机群控 Xposed 基于JAVA 反反爬手段多 Frida 会C++即可 抓的多,不易被反爬 5 数据提取 Re 程序员必会 Xpath 随手复制就能用 Beatifulsoup 支持节点、CSS选择器、文本内容等方式,缺点是速度较慢 parsel 以上模块的集成,Scrapy的底层 json python自带,简洁好用 execjs 处理json兼容性更好,并支持js执行,缺点是速度较慢 6 数据存储 pandas 适合处理五十万条以下的个人数据、兼容多种格式:csv、xlsx、xls、json、html、spss、sql 等等... 数据库与消息队列 mysql 关系型数据库 Redis 非关系型数据库 ES 搜索引擎 kafka 消息队列 Neo4j 图数据库 7 分布式 Docker compose 容器关联工具 k8s 容器编排工具 8 自动化运维 Prometheus 可靠的监控 Grafana 好看的可视化 9 人机验证 tesserocr 部署复杂,识别一般,时代眼泪 ddddocr 需联网的可靠识别模型 opencv 最流行的计算机视觉库之一 pytorch 最流行的机器学习库之一 10 逆向 Chromium 网页逆向 Frida-RPC APP逆向 11 学无止境 Scrape Center 常见的浏览器与APP反爬练习 cloudreve 个人网盘,用于交付数据

shibing624 commented 1 year ago

暂时我没计划加爬虫,欢迎提pr,这11个模块都还ok