canghailan / Wuhan-2019-nCoV

2019-nCoV 新冠状病毒 2019-12-01至今国家、省、市三级每日统计数据(支持接口读取)
MIT License
504 stars 194 forks source link

incorrect Henan records #5

Closed YiranJing closed 4 years ago

YiranJing commented 4 years ago

Hi @canghailan,

谢谢您提供的开源抓取方法!

下图是我用您的代码抓取的csv画出的图,感觉河南省的数据有问题,6号是1700多人,7号突然变成了不到1000人。请问您能帮忙核实解决一下嘛?感谢

image

canghailan commented 4 years ago
date,country,countryCode,province,provinceCode,city,cityCode,confirmed,suspected,cured,dead
2020-02-03,中国,CN,河南省,410000,,,675,44,20,2
2020-02-04,中国,CN,河南省,410000,,,764,52,41,2
2020-02-05,中国,CN,河南省,410000,,,851,45,54,2
2020-02-06,中国,CN,河南省,410000,,,914,66,68,3
2020-02-07,中国,CN,河南省,410000,,,980,0,97,4
2020-02-08,中国,CN,河南省,410000,,,1033,0,131,6

我人工从最新版本的CSV里提取到的数据是这样的,感觉4、5、6三天的数据都有问题。我稍后写个程序验证下是否有脏数据。

canghailan commented 4 years ago
2020-01-28,中国,CN,河南省,410000,,,206,78,1,2

另外1月28日的数据看起来也不对

YiranJing commented 4 years ago
Screen Shot 2020-02-10 at 6 21 01 pm

感谢您的及时回复! 对的 我刚刚check了一下,目前有这么多城市都是 确诊人数有下降的,我觉得比如武汉 确诊人数 从44 下降到41,这或许没问题,因为有些人康复或者去世了。但是有些数据变化太大应该有问题。好的感谢您!!!

canghailan commented 4 years ago

武汉 确诊人数 从44 下降到41

这个是因为原始数据本身有问题,所以强行进行了一个修正。具体原因也不知。

确诊人数有下降

这个有几个方面的原因:一是的确有核减的情况,但是这种情况比较少,人数也不多。二是2月6日左右卫健委把统计的口径调整过一次,省一级的数据应该不会有大的变化,市一级的数据有变化的比较多。三是可能的确是数据采集过程中的问题。2月6日及之前的数据来自卫健委官方通告,2月7日及之后的数据来自接口采集,市一级的数据与官方数据有差异,一般略小于最终官方通报的数据(时间有延迟)。

康复或者去世

应该不是这个原因,这里确诊人数是累计确诊人数,是包含康复和去世人数的。

YiranJing commented 4 years ago

好的谢谢告知。还有两个问题:

  1. 北京的数据有问题,

    Screen Shot 2020-02-10 at 6 51 46 pm
  2. 我加和了一下中国的确诊人数,不太对呀,应该现在是4万左右

    Screen Shot 2020-02-10 at 6 53 43 pm
YiranJing commented 4 years ago

好的谢谢 应该是我的代码问题 我去看一下

canghailan commented 4 years ago

image

我简单用Excel筛了一下,和你数据不一样

canghailan commented 4 years ago

我加和了一下中国的确诊人数,不太对呀,应该现在是4万左右

这个不需要累加了,已经是累计值,不是新增值,直接取最新的数据就行了

date country countryCode province provinceCode city cityCode confirmed suspected cured dead
2020-02-10 中国 CN         40239 23589 3376 909
YiranJing commented 4 years ago

好的谢谢您!!!!! 那个北京人数我在中文翻译成英文的时候犯了错误! 好的明白了 请问 是不是 北京市总和的数据就是city为None的时候。然后省的总和 就是当对应的city为none的时候对么?

canghailan commented 4 years ago

是的,中国的总数就是省为空的时候,不需要自己计算。因为有时候的确会出现总和数据对不上的时候,都是以上级的数据为准。

YiranJing commented 4 years ago

谢谢!!!