myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息，若稍加修改，可以爬取任意页数的信息。

“第一只爬虫”的lxml实现。因为lxml库用C实现，效率很高，而且支持xpath。所以做了一次练习。

爬取每个热门标签下的书籍基本信息，存储到MySQL中。因为有些数据的格式不符合要求，实际爬取数量为60000+。稍作修改，可以拓展功能，或者做些其他有趣的事情。

上一个爬虫的全面升级。只爬取“编程”标签下的书籍，但这次爬取了书籍详情页面和书籍图片，并且使用了多线程，速度提高很多。

另外，在尝试用wxPython做一个图形化的书籍检索页面，更好地利用爬取成果。目前只做了最简单的实现。

保存指定URL的页面到本地。

爬取糗事百科的内容，输出到命令行。主要参考http://cuiqingcai.com/990.html ，略作修改。

爬取某个代理页面的信息，输出到控制台。

爬取学校网站的srtp讲座信息。

根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。

爬取百度百科10个词条的简介。代码来自慕课网，略作修改。很多地方和之前做过的练习不一样，有一定参考价值。

模拟post请求，调用百度翻译接口。难度不大，却很实用