Open ZhelinCheng opened 1 year ago
https://zhelin.me/5eea45dd756329c3/
在追《创造101》时,因嫌看数据太麻烦做了【创造101成员网络数据】,在《创造101》结束后,抽时间做了【火箭少女101数据中心】,有很多小伙伴问我一些相关的问题,为了不让自己每次重复回答,所有准备写这一个系列的文章。当然啦,其实这个东西十分简单,我也琢磨着怎么下笔才能产生内容。但在此之前,我需要说明的是:
一般而言我们需要遵守网站的robots协议,该协议在域名的根目录下通过 http://xxx.com/robots.txt 的形式访问。这个文件告诉了爬虫什么目录可以访问,什么目录不可以访问。但遗憾的是,有可能你需要访问的数据在这个文件禁止访问的行列里,这个时候就不必遵循了......
但做为一个有节操的爬虫作者,你应该严格控制爬虫获取数据的节奏,高并发的请求会给服务器带来巨大的压力和占用大量带宽,虽然服务器有相关防范措施,但我们也需要掌握好这个度,不然IP可能会被BAN。
整体结构
文章分为三大部分:
https://zhelin.me/5eea45dd756329c3/
在追《创造101》时,因嫌看数据太麻烦做了【创造101成员网络数据】,在《创造101》结束后,抽时间做了【火箭少女101数据中心】,有很多小伙伴问我一些相关的问题,为了不让自己每次重复回答,所有准备写这一个系列的文章。当然啦,其实这个东西十分简单,我也琢磨着怎么下笔才能产生内容。但在此之前,我需要说明的是:
一般而言我们需要遵守网站的robots协议,该协议在域名的根目录下通过 http://xxx.com/robots.txt 的形式访问。这个文件告诉了爬虫什么目录可以访问,什么目录不可以访问。但遗憾的是,有可能你需要访问的数据在这个文件禁止访问的行列里,这个时候就不必遵循了......
但做为一个有节操的爬虫作者,你应该严格控制爬虫获取数据的节奏,高并发的请求会给服务器带来巨大的压力和占用大量带宽,虽然服务器有相关防范措施,但我们也需要掌握好这个度,不然IP可能会被BAN。
整体结构
文章分为三大部分: