Open MrNiebit opened 3 years ago
https://blog.lacknb.cn/articles/2019/07/20/1577974159168.html
scrapy爬虫项目的创建基本设置 一、 创建指令 $: scrapy startproject 项目名 # 例如 $: scrapy startproject MySpider cd 项目名 进入爬虫项目的目录 生成爬虫文件(模板) $: scrapy genspider 爬虫名字 爬虫的网址 # 例如 $: scrapy genspider test baidu.com 二、 setting文件的设置 # 这里是是否准守爬虫规则, 默认是True, 将这里改成False # Obey robots.txt rules ROBOTSTXT_OBEY = True # 设置控制台日志的显示,等级低于warning的日志信息,就不会显示出来 LOG_LEVEL = 'WARNING' # headers取消注释, 还有UA标识 DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8', 'Accept-Language': ....
https://blog.lacknb.cn/articles/2019/07/20/1577974159168.html
scrapy爬虫项目的创建基本设置 一、 创建指令 $: scrapy startproject 项目名 # 例如 $: scrapy startproject MySpider cd 项目名 进入爬虫项目的目录 生成爬虫文件(模板) $: scrapy genspider 爬虫名字 爬虫的网址 # 例如 $: scrapy genspider test baidu.com 二、 setting文件的设置 # 这里是是否准守爬虫规则, 默认是True, 将这里改成False # Obey robots.txt rules ROBOTSTXT_OBEY = True # 设置控制台日志的显示,等级低于warning的日志信息,就不会显示出来 LOG_LEVEL = 'WARNING' # headers取消注释, 还有UA标识 DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8', 'Accept-Language': ....