plough / myCrawler

我的爬虫练习
276 stars 192 forks source link

myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。

bookSpiderXpath

“第一只爬虫”的lxml实现。因为lxml库用C实现,效率很高,而且支持xpath。所以做了一次练习。

bookCrawler2

爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。

bookSearch

另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。

proxyInfo

爬取某个代理页面的信息,输出到控制台。

srtpInfo

爬取学校网站的srtp讲座信息。

tieba

根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。

bdbaike

爬取百度百科10个词条的简介。代码来自慕课网,略作修改。很多地方和之前做过的练习不一样,有一定参考价值。

baiduTranslate

模拟post请求,调用百度翻译接口。难度不大,却很实用