Closed guowenjia closed 4 years ago
node history
├── history
│ ├── tmp --------------------- 中间文件层,生成多个以 id 为名称的 json文件
│ ├── jp-bingo5.JSON
│ ├── jp-kisekaeqoochan.JSON
│ ├── jp-loto6.JSON
│ ├── jp-loto7.JSON
│ ├── jp-miniloto.JSON
│ ├── jp-numbers3.JSON
│ └── jp-numbers4.JSON
中间文件层,生成多个以 id 为名称的 json 文件。用于重复获取历史信息 & 重复爬取失败的文件。如果需要强制重新爬取,需要删除 tmp 文件夹
我们对于历史数据的爬虫暂时没有太多要求,你只需要能保证完整爬取从当天到这个网站历史上最远的一期,把所有数据都保存在一个json文件里。
然后实际爬出来一份数据就行。 抓取的代码可以和latest放一块,也可以创建一个history文件夹放里面。 我们初始化数据的时候是靠每个彩种一个json array文件导入的。