masschaos / lottocrawler

GNU General Public License v3.0
0 stars 0 forks source link

日本历史数据抓取 #36

Closed guowenjia closed 4 years ago

guowenjia commented 4 years ago

我们对于历史数据的爬虫暂时没有太多要求,你只需要能保证完整爬取从当天到这个网站历史上最远的一期,把所有数据都保存在一个json文件里。

然后实际爬出来一份数据就行。 抓取的代码可以和latest放一块,也可以创建一个history文件夹放里面。 我们初始化数据的时候是靠每个彩种一个json array文件导入的。

mapleincode commented 4 years ago

https://github.com/masschaos/lottocrawler/pull/37

mapleincode commented 4 years ago

用法

node history

文件目录

├── history
│   ├── tmp --------------------- 中间文件层,生成多个以 id 为名称的 json文件
│   ├── jp-bingo5.JSON
│   ├── jp-kisekaeqoochan.JSON
│   ├── jp-loto6.JSON
│   ├── jp-loto7.JSON
│   ├── jp-miniloto.JSON
│   ├── jp-numbers3.JSON
│   └── jp-numbers4.JSON

history/tmp 文件夹

中间文件层,生成多个以 id 为名称的 json 文件。用于重复获取历史信息 & 重复爬取失败的文件。如果需要强制重新爬取,需要删除 tmp 文件夹