memect / hao

好东西传送门
1.4k stars 461 forks source link

请问有没什么做网络爬虫的教程 #260

Closed haoawesome closed 9 years ago

haoawesome commented 10 years ago

私信 一个李富贵

haoawesome commented 10 years ago

概念

http://en.wikipedia.org/wiki/Web_crawler A Web crawler is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing. A Web crawler may also be called a Web spider,[1] an ant, an automatic indexer,[2] or (in the FOAF software context) a Web scutter.

http://zh.wikipedia.org/zh-cn/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B 网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

haoawesome commented 10 years ago

简单例子 学习源代码

https://gist.github.com/palianytsia/4246680 - java

https://github.com/kezakez/python-web-crawler - python

进阶讲义

http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling

haoawesome commented 10 years ago

相关开源包

https://github.com/memect/hao/issues/127 目前支持Python 3的各种Web Crawler包有哪些比较好的

haoawesome commented 10 years ago

如果就是学习网络爬虫的基本设计,看这里 https://github.com/memect/hao/issues/260#issuecomment-58989834 要选择工具包看这里 https://github.com/memect/hao/issues/127