BlankerL / DXY-COVID-19-Crawler

2019新型冠状病毒疫情实时爬虫及API | COVID-19/2019-nCoV Realtime Infection Crawler and API
https://lab.isaaclin.cn/nCoV/
MIT License
1.99k stars 400 forks source link

异常数据反馈 | Noise Data Feedback #34

Open BlankerL opened 4 years ago

BlankerL commented 4 years ago

目前发现浙江省/湖北省部分时间序列数据存在数据异常,可能的原因是丁香园数据为人工录入,某些数据可能录入错误,比如某一次爬虫获取的浙江省治愈人数为537人,数分钟后被修改回正常人数。

本项目爬虫仅从丁香园公开的数据中获取并储存数据,并不会对异常值进行判断和处理,因此如果将本数据用作科研目的,请自己对数据进行清洗。

同时,可以直接在此问题中反馈潜在的异常数据,我会定期检查并处理。


所有与数据异常不相关的问题请另开issue,自2020年4月3日起,所有与数据异常不相关的问题不再回复。

BlankerL commented 4 years ago

比较想知道有没有0点的数据。丁香园的数据跟官方数据看起来不太统一,因为官方的数据过几天会修改。比如截至1月24日24时的全国确诊在卫健委官网上是1287,这个数据是2020-01-31 重新更新到官方网站的。看了你们爬的数据,都小于这个。

请先阅读标题,您的问题属于异常数据反馈吗?

BlankerL commented 4 years ago

属于真正的异常数据来了。2020/1/28 湖北省的curedCount为52大于29号的50,这个应该是累积数据,所以这个是异常了吧。

provinceName cityName province_confirmedCount province_suspectedCount province_curedCount province_deadCount city_confirmedCount city_suspectedCount city_curedCount city_deadCount updateTime 湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:41 湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:40 湖北省 武汉 2714 0 52 100 1590 0 47 85 2020/1/28 16:36

微小差异的数据很有可能只是修正,对这种小的偏差不作调整,如果有科研需求,这样的数据大家会自己来做取舍的。

丁香园有时候数据录入,前后三条数据是0->500->0,仅对明显的录入错误的数据进行调整。

BlankerL commented 4 years ago

我知道不属于,就说说而已。

如果有问题可以单开一个issue,如果没问题麻烦不要刷存在感。维护项目都是在空余时间做的,实在没有精力每天回答描述不清/重复数次的issue,谢谢。

YonghuiWang99 commented 4 years ago

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

BlankerL commented 4 years ago

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

好的,感谢。

有问题可以单开issue,不只是因为回答方便,更是因为其他人如果有同样的问题,可以通过标题直接找到你的问题并看到答案,而不是再重开一个issue,这样也是对项目的一种贡献。

这个项目是我一个人在维护,精力有限,每天还要回复十多封邮件和GitHub Issue,同样的问题对于大家来说只提了一次,我每天都需要回复很多次,为了方便大家能自己找到答案,请谅解。

microly commented 4 years ago

一个建议: 如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。 对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。 对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

BlankerL commented 4 years ago

一个建议: 如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。 对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。 对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

所有原始数据在数据仓库中都是可得的,修正的数据只有数值偏离极大并且得到丁香园修正的数据。目前仅有上面提到的浙江和湖北的两条数据。

BlankerL commented 4 years ago

38 蒙古仅存在一条独立的数据,核实为错误录入数据,已移除。

nmweizi commented 4 years ago

DXYArea.csv中suspectedCount疑似数据好像是0 哦,丁香园没有疑似数据

BlankerL commented 4 years ago

DXYArea.csv中suspectedCount疑似数据好像是0 哦,丁香园没有疑似数据

是的,丁香园没有疑似数据但仍然在返回这个字段的内容,为了防止以后丁香园更新或者补全数据,没有在API中删除这个字段。可以参考#12

microly commented 4 years ago

收到~ 谢谢您的工作~

microly commented 4 years ago

province city confirmed cured dead time 海南省 澄迈县 2 0 1 2020-01-29 10:15:58 海南省 澄迈县 2 0 0 2020-01-29 09:33:38 海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

wifecooky commented 4 years ago

你好,能在地区数据中加入国外数据吗? 谢谢!

BlankerL commented 4 years ago

province city confirmed cured dead time 海南省 澄迈县 2 0 1 2020-01-29 10:15:58 海南省 澄迈县 2 0 0 2020-01-29 09:33:38 海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

找到海南省卫健委的死亡通报,无法确定数据是否有误。 https://www.sohu.com/a/369083488_362042

BlankerL commented 4 years ago

你好,能在地区数据中加入国外数据吗? 谢谢!

https://lab.isaaclin.cn/nCoV/api/area 接口中包含国外数据。

如有其他问题请单开issue,这个issue用作异常数据反馈

dta0502 commented 4 years ago

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607
BlankerL commented 4 years ago

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607

已核实,感谢反馈。该数据错误同时导致了Overall的死亡人数错误,均已经处理。

yijunwang0805 commented 4 years ago

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。 累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下 脏数据

放在python数据框中更简单易懂,如下 zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

BlankerL commented 4 years ago

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。 累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下 脏数据

放在python数据框中更简单易懂,如下 zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

感谢反馈! 经核实,数据存在异常波动,同时原始数据中包含如下信息,可能是测试数据...因此这3条记录已经删除。

{ 
    ...
    "generalRemark" : "我是表格下的备注,test!121", 
    "abroadRemark" : "我是国外总备注,来看我鸭!我就不嘻嘻嘻test1", 
    ...
}
jinsihou19 commented 4 years ago

image 时间是:1581380207083,吉林省的城市存在重复。

BlankerL commented 4 years ago

时间是:1581380207083,吉林省的城市存在重复。

@jinsihou19 感谢反馈!

经检查,这条数据的cities中,吉林省每个城市均出现了两次,每个城市的数据分别是更新前的数据(即上一条数据)以及更新后的数据。5分钟之后丁香园修正了这个错误,并且只保留了更新后的数据。因此,已经删除这条数据。

Avens666 commented 4 years ago

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991 就是这条数据,可以看看 类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

BlankerL commented 4 years ago

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991 就是这条数据,可以看看 类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

宁河/宁河区 & 恩施/恩施州 等类似的命名都是丁香园在录入数据时手动输入的,数据库内只保存原始数据,我对数据库的所有修改全部都是基于“大家发现问题👉提交到issue内👉我来进行判定和处理”这样的流程。

天津市的这条数据已经处理完毕,这条数据记录后一个小时左右,丁香园更新了数据,除了将“宁河”修改为“宁河区”以外没有其他变动,因此将本条数据移除数据库。

BlankerL commented 4 years ago

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991 就是这条数据,可以看看 类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

目前有10条数据使用“恩施”,199条数据使用“恩施州”,感谢反馈,我逐一核查之后进行处理。


经过核查,所有“恩施”条目均出现在2月1日8:19至2月1日19:40之间,前后数据均命名为“恩施州”,因此已经统一修改为“恩施州”&“Enshi Tujia and Miao Autonomous Prefecture”。

Avens666 commented 4 years ago

河南省,2月3日的数据,应该去掉邓州,永城,长垣,滑县, 因为这天开始,其他的地区包含了这几个地区,这天之前的数据是没包含。 不知道根据你的规则能不能去掉。这个只是建议,我可以根据只取省的最后时刻数据规避这个问题

上海市,有几天的数据,行政单位有“区”,如宝山区,但有几天,数据没有“区”, 1.28 1.29 1.30

BlankerL commented 4 years ago

河南省,2月3日的数据,应该去掉邓州,永城,长垣,滑县, 因为这天开始,其他的地区包含了这几个地区,这天之前的数据是没包含。 不知道根据你的规则能不能去掉。这个只是建议,我可以根据只取省的最后时刻数据规避这个问题

上海市,有几天的数据,行政单位有“区”,如宝山区,但有几天,数据没有“区”, 1.28 1.29 1.30

感谢反馈!河南的问题之前有类似的情况,我在这里进行了说明。

上海共有21条数据存在这个问题,已经全部更新中英文城市名称,请等待下一次数据仓库更新推送。

tonguesea commented 4 years ago

您好,发现从province和area接口中取到的数据,其suspectedCount一列数据有缺失 比如湖北为例,大部分日期该列都是0,仅在部分日期有值,如23638 image

image 请帮忙查看

BlankerL commented 4 years ago

您好,发现从province和area接口中取到的数据,其suspectedCount一列数据有缺失 比如湖北为例,大部分日期该列都是0,仅在部分日期有值,如23638 image

image 请帮忙查看

查阅#12

ttzc commented 4 years ago

江西省疑似病例异常

yijunwang0805 commented 4 years ago

江西省疑似病例异常

"丁香园已经不针对省/市开放suspectedCount数据了,只有确诊、治愈、死亡数据公开。"

12

zyq5945 commented 4 years ago

你好,湖北的2020-01-26 8:54 和2020-01-26 8:40的累计康复数有问题,2020/1/26 0:01:40的还是32,这两日期的变成6了。

BlankerL commented 4 years ago

你好,湖北的2020-01-26 8:54 和2020-01-26 8:40的累计康复数有问题,2020/1/26 0:01:40的还是32,这两日期的变成6了。

你好,感谢回报。我查询了一下这两条数据,省级的治愈数量应该是市级康复数量的总和。

在1月25日的数据中,武汉市的康复数量是32人; 1月26日的这两条数据内,武汉市康复数量变为了4人,同时新增了黄冈市康复数量2人,因此累计为6人; 丁香园在4分钟之后修正数据,因此考虑是数据录入异常,这两个条目已经删除。

zyq5945 commented 4 years ago

你好,新生成的csv数据文件的city_confirmedCount,city_suspectedCount,city_curedCount,city_deadCount的数据类型是浮点型,会占用较大空间,能不能改成整形。

BlankerL commented 4 years ago

你好,新生成的csv数据文件的city_confirmedCount,city_suspectedCount,city_curedCount,city_deadCount的数据类型是浮点型,会占用较大空间,能不能改成整形。

感谢反馈,已经修改为整形。另外,可以在数据仓库的issue内反馈。

BlankerL commented 4 years ago

你好,已经无法获取getStatisticsService数据

感谢回报,已经在最新的commit中解决。

ch-liuzhide commented 4 years ago

接口 https://lab.isaaclin.cn/nCoV/api/area 的返回体国家英语名字突然不返回了

BlankerL commented 4 years ago

接口 https://lab.isaaclin.cn/nCoV/api/area 的返回体国家英语名字突然不返回了

感谢反馈,已经解决。可参考#92

LianCongPeng commented 4 years ago

用curl请求接口https://lab.isaaclin.cn/nCoV/api/area?latest=1&province=湖北省 时返回502,其他省份也是

BlankerL commented 4 years ago

用curl请求接口https://lab.isaaclin.cn/nCoV/api/area?latest=1&province=湖北省 时返回502,其他省份也是

查阅#63,讨论内容与主题无关,已折叠。

ghost commented 4 years ago

你好,请问date是新闻发布的日期还是实际病例的日期?我核对了安徽省累计确诊2月6日之前是实际的日期,2月7号开始是新闻发布的日期。但治愈的日期均为实际的日期,这导致了日期的错位。

BlankerL commented 4 years ago

你好,请问date是新闻发布的日期还是实际病例的日期?我核对了安徽省累计确诊2月6日之前是实际的日期,2月7号开始是新闻发布的日期。但治愈的日期均为实际的日期,这导致了日期的错位。

抱歉,没有理解你在说什么数据。这个issue是关于异常数据反馈的,有其他问题请另开issue并且详细描述一下。

er-xia commented 4 years ago

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

BlankerL commented 4 years ago

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

你好,可以参考BlankerL/DXY-COVID-19-Data#68。数据库内记录的是数据变动,如果在其他时间点数据并没有发生变动,则不会记录。

er-xia commented 4 years ago

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

你好,可以参考BlankerL/DXY-COVID-19-Data#68。数据库内记录的是数据变动,如果在其他时间点数据并没有发生变动,则不会记录。

好的,感谢

janejh commented 4 years ago

2020/2/3 10:40:09 AM 和 2020/2/3 10:37:56 AM 青海省"北海州"的两条数据,cityName可能是丁香园的typo,应当是"海北州"

BlankerL commented 4 years ago

2020/2/3 10:40:09 AM 和 2020/2/3 10:37:56 AM 青海省"北海州"的两条数据,cityName可能是丁香园的typo,应当是"海北州"

感谢反馈,已经修正!

lxh594hh commented 4 years ago

DXYOverall.json 中全球数据中与昨天的增减人数 跟中国的数据同步,存在问题

BlankerL commented 4 years ago

DXYOverall.json 中全球数据中与昨天的增减人数 跟中国的数据同步,存在问题

请问能否具体描述一下,没有太理解这句话的意思。

Guochengjie commented 4 years ago

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49
错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。
附:有问题的数据

{
    "results":[
        {
            "currentConfirmedCount":516,
            "currentConfirmedIncr":-9,
            "confirmedCount":85232,
            "confirmedIncr":5,
            "suspectedCount":1918,
            "suspectedIncr":0,
            "curedCount":80068,
            "curedIncr":14,
            "deadCount":4648,
            "deadIncr":0,
            "seriousCount":100,
            "seriousIncr":1,
            "globalStatistics":{
                "currentConfirmedCount":4650537,
                "confirmedCount":10413355,
                "curedCount":5252487,
                "deadCount":510331,
                "currentConfirmedIncr":-9,
                "confirmedIncr":5,
                "curedIncr":14,
                "deadIncr":0
            },
            "generalRemark":"1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例(非 12 日新增),暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。",
            "remark1":"易感人群:人群普遍易感。老年人及有基础疾病者感染后病情较重,儿童及婴幼儿也有发病",
            "remark2":"潜伏期:一般为 3~7 天,最长不超过 14 天,潜伏期内可能存在传染性,其中无症状病例传染性非常罕见",
            "remark3":"宿主:野生动物,可能为中华菊头蝠",
            "remark4":"",
            "remark5":"",
            "note1":"病毒:SARS-CoV-2,其导致疾病命名 COVID-19",
            "note2":"传染源:新冠肺炎的患者。无症状感染者也可能成为传染源。",
            "note3":"传播途径:经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明确。",
            "updateTime":1593571429017
        }
    ],
    "success":true
}

Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

BlankerL commented 4 years ago

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49 错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。 Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

非常感谢,经过确认应该是丁香园的数据返回有误,目前已经删除,请等待最新的数据仓库推送。