thinkuncle / thinkuncle.github.io

thinkuncle
4 stars 0 forks source link

Web爬虫教程-TODO #111

Open thinkuncle opened 7 years ago

thinkuncle commented 7 years ago

在15年有一段相当短的经历,在一家公司担当唯一的后端工程师, 公司做的是主打读屏产品,有一些盲人听书、盲人象棋、盲人斗地主, 和做一个自己的股票投资平台。 我主要是负责数据采集、分析、统计以及APP数据交互的工作,做web爬虫的内容居多。

涉及的内容

http协议 正则表达式(匹配) 数据分词 重复内容指纹

web爬虫其实比较简单、说白了就是模拟http请求,然后对http响应进行解析得到想要的内容。

http协议

https://zh.wikipedia.org/wiki/超文本传输协议