Closed swituo closed 4 years ago
你好,十分感谢反馈。
我已经检查了数据库的内容,这个时间点的数据可以全部删除,原因如下:
我向前回溯了前一条湖北省的数据(更新时间:02/10/2020 @ 1:30pm (UTC))以及后一条的湖北省数据(更新时间:02/11/2020 @ 12:12am (UTC)),发现您所说的这条数据(更新时间:02/10/2020 @ 11:28pm (UTC))是前后两条数据的并集。例如:前一条的武汉确诊人数16902,后一条数据的武汉确诊人数18454,而您说的数据条目有两次重复的数据,分别为16902和18454;针对湖北省的其他城市也有相同的情况。
个人认为者应该是丁香园数据录入错误导致的,您所提到的这条数据和后一条数据的更新时间仅相差30分钟左右。
目前我的处理方式为:删除您所说的时间点的数据条目,并将后一条的数据更新时间替换为被删除的这条数据的更新时间(因为理论上来说,如果丁香园没有发生此疏漏,后一条记录就应该是在当前时间进行更新的)。数据已经处理完成,会在1个小时之内自动推送到数据仓库中,您可以下载最新的数据并进一步分析。
再次感谢反馈。
异常数据反馈引用 BlankerL/DXY-COVID-19-Crawler#34
请问,
2020-02-11
这天有重复的数据,更新时间是相同的,但值是不一样的,请问该以什么为主? 谢谢。