BlankerL / DXY-COVID-19-Data

2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse
https://lab.isaaclin.cn/nCoV/
MIT License
2.16k stars 707 forks source link

“2020-02-11”有重复数据 #77

Closed swituo closed 4 years ago

swituo commented 4 years ago

请问,2020-02-11这天有重复的数据,更新时间是相同的,但值是不一样的,请问该以什么为主? 谢谢。

continent country province city updatetime 重复次数
亚洲 中国 湖北省 仙桃 2020-02-11 07:28:03 2
亚洲 中国 重庆市 彭水县 2020-02-11 07:39:13 2
亚洲 中国 湖北省 黄冈 2020-02-11 07:28:03 2
亚洲 中国 重庆市 大足区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 秀山县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 武隆区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 酉阳县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 涪陵区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 沙坪坝区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 石柱县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 九龙坡区 2020-02-11 07:39:13 2
亚洲 中国 湖北省 咸宁 2020-02-11 07:28:03 2
亚洲 中国 湖北省 鄂州 2020-02-11 07:28:03 2
亚洲 中国 重庆市 开州区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 梁平区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 璧山区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 万州区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 高新区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 垫江县 2020-02-11 07:39:13 2
亚洲 中国 湖北省 宜昌 2020-02-11 07:28:03 2
亚洲 中国 重庆市 荣昌区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 铜梁区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 黔江区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 江北区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 南岸区 2020-02-11 07:39:13 2
亚洲 中国 湖北省 孝感 2020-02-11 07:28:03 2
亚洲 中国 重庆市 城口县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 两江新区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 巫溪县 2020-02-11 07:39:13 2
亚洲 中国 湖北省 襄阳 2020-02-11 07:28:03 2
亚洲 中国 重庆市 长寿区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 渝北区 2020-02-11 07:39:13 2
亚洲 中国 湖北省 潜江 2020-02-11 07:28:03 2
亚洲 中国 重庆市 合川区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 永川区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 江津区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 云阳县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 忠县 2020-02-11 07:39:13 2
亚洲 中国 湖北省 神农架林区 2020-02-11 07:28:03 2
亚洲 中国 湖北省 黄石 2020-02-11 07:28:03 2
亚洲 中国 湖北省 荆州 2020-02-11 07:28:03 2
亚洲 中国 湖北省 随州 2020-02-11 07:28:03 2
亚洲 中国 湖北省 荆门 2020-02-11 07:28:03 2
亚洲 中国 湖北省 十堰 2020-02-11 07:28:03 2
亚洲 中国 重庆市 大渡口区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 綦江区 2020-02-11 07:39:13 2
亚洲 中国 湖北省 恩施州 2020-02-11 07:28:03 2
亚洲 中国 重庆市 奉节县 2020-02-11 07:39:13 2
亚洲 中国 湖北省 武汉 2020-02-11 07:28:03 2
亚洲 中国 重庆市 巫山县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 万盛经开区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 丰都县 2020-02-11 07:39:13 2
亚洲 中国 重庆市 潼南区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 巴南区 2020-02-11 07:39:13 2
亚洲 中国 重庆市 渝中区 2020-02-11 07:39:13 2
亚洲 中国 湖北省 天门 2020-02-11 07:28:03 2
BlankerL commented 4 years ago

你好,十分感谢反馈。

我已经检查了数据库的内容,这个时间点的数据可以全部删除,原因如下:

我向前回溯了前一条湖北省的数据(更新时间:02/10/2020 @ 1:30pm (UTC))以及后一条的湖北省数据(更新时间:02/11/2020 @ 12:12am (UTC)),发现您所说的这条数据(更新时间:02/10/2020 @ 11:28pm (UTC))是前后两条数据的并集。例如:前一条的武汉确诊人数16902,后一条数据的武汉确诊人数18454,而您说的数据条目有两次重复的数据,分别为16902和18454;针对湖北省的其他城市也有相同的情况。

个人认为者应该是丁香园数据录入错误导致的,您所提到的这条数据和后一条数据的更新时间仅相差30分钟左右。

目前我的处理方式为:删除您所说的时间点的数据条目,并将后一条的数据更新时间替换为被删除的这条数据的更新时间(因为理论上来说,如果丁香园没有发生此疏漏,后一条记录就应该是在当前时间进行更新的)。数据已经处理完成,会在1个小时之内自动推送到数据仓库中,您可以下载最新的数据并进一步分析。

再次感谢反馈。

BlankerL commented 4 years ago

异常数据反馈引用 BlankerL/DXY-COVID-19-Crawler#34