SHU-PV-Blue / Issues

无具体功能的项目,用于创建和更新团队日常事务工单,和共享一些文件。
0 stars 1 forks source link

爬虫上路任务 #28

Closed wolfogre closed 7 years ago

wolfogre commented 8 years ago
  1. 完成 #27 Git&GitHub 上路任务
  2. 完成袁子华交代的爬虫任务,袁子华在下面评论。
  3. 代码全程用 Git 跟踪。

了不起的 Java IDE: IntelliJ IDEA,破解:http://jetbrains.wolfogre.com

yahaa commented 8 years ago

1.先写一个简单的bfs爬虫爬取知乎 http://www.zhihu.com/explore/recommendations,爬下问题的:提问者 ,具体问题,回答的人数,点赞的人数,把获得的数据用文件保存。 2.把上面的bfs爬虫改为多线程爬虫 爬取上面同一个链接,爬取内容同上。 3.实现爬虫模拟登陆知乎,然后爬取登陆后的网站的内容,内容同上,把获取的数据存入数据库。 4.用各种爬虫框架来写爬虫,要求能爬动态网页,爬取内容同上。 5.慢慢写,1.要两周应该写出来了,2.需要一周吧,3,需要一周吧 4,需要两周吧! 6.动态的我还没有写出来。