Closed YiranJing closed 4 years ago
date,country,countryCode,province,provinceCode,city,cityCode,confirmed,suspected,cured,dead
2020-02-03,中国,CN,河南省,410000,,,675,44,20,2
2020-02-04,中国,CN,河南省,410000,,,764,52,41,2
2020-02-05,中国,CN,河南省,410000,,,851,45,54,2
2020-02-06,中国,CN,河南省,410000,,,914,66,68,3
2020-02-07,中国,CN,河南省,410000,,,980,0,97,4
2020-02-08,中国,CN,河南省,410000,,,1033,0,131,6
我人工从最新版本的CSV里提取到的数据是这样的,感觉4、5、6三天的数据都有问题。我稍后写个程序验证下是否有脏数据。
2020-01-28,中国,CN,河南省,410000,,,206,78,1,2
另外1月28日的数据看起来也不对
感谢您的及时回复! 对的 我刚刚check了一下,目前有这么多城市都是 确诊人数有下降的,我觉得比如武汉 确诊人数 从44 下降到41,这或许没问题,因为有些人康复或者去世了。但是有些数据变化太大应该有问题。好的感谢您!!!
武汉 确诊人数 从44 下降到41
这个是因为原始数据本身有问题,所以强行进行了一个修正。具体原因也不知。
确诊人数有下降
这个有几个方面的原因:一是的确有核减的情况,但是这种情况比较少,人数也不多。二是2月6日左右卫健委把统计的口径调整过一次,省一级的数据应该不会有大的变化,市一级的数据有变化的比较多。三是可能的确是数据采集过程中的问题。2月6日及之前的数据来自卫健委官方通告,2月7日及之后的数据来自接口采集,市一级的数据与官方数据有差异,一般略小于最终官方通报的数据(时间有延迟)。
康复或者去世
应该不是这个原因,这里确诊人数是累计确诊人数,是包含康复和去世人数的。
好的谢谢告知。还有两个问题:
北京的数据有问题,
我加和了一下中国的确诊人数,不太对呀,应该现在是4万左右
好的谢谢 应该是我的代码问题 我去看一下
我简单用Excel筛了一下,和你数据不一样
我加和了一下中国的确诊人数,不太对呀,应该现在是4万左右
这个不需要累加了,已经是累计值,不是新增值,直接取最新的数据就行了
date | country | countryCode | province | provinceCode | city | cityCode | confirmed | suspected | cured | dead |
---|---|---|---|---|---|---|---|---|---|---|
2020-02-10 | 中国 | CN | 40239 | 23589 | 3376 | 909 |
好的谢谢您!!!!! 那个北京人数我在中文翻译成英文的时候犯了错误! 好的明白了 请问 是不是 北京市总和的数据就是city为None的时候。然后省的总和 就是当对应的city为none的时候对么?
是的,中国的总数就是省为空的时候,不需要自己计算。因为有时候的确会出现总和数据对不上的时候,都是以上级的数据为准。
谢谢!!!
Hi @canghailan,
谢谢您提供的开源抓取方法!
下图是我用您的代码抓取的csv画出的图,感觉河南省的数据有问题,6号是1700多人,7号突然变成了不到1000人。请问您能帮忙核实解决一下嘛?感谢