BlankerL / DXY-COVID-19-Data

2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse
https://lab.isaaclin.cn/nCoV/
MIT License
2.16k stars 709 forks source link

异常数据 #29

Closed Avens666 closed 4 years ago

Avens666 commented 4 years ago

DXYarea的数据反馈

2.14 武汉死亡数据,有一行为1124,影响数据清洗 (我统计数据使用当天最大值,这个很干扰) 湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048 应该是1106

2.2日武汉的治愈数据 有个252,也不对 湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

另外,为什么不把各项新增数据爬出来呢,只有总数,虽然后一天减去前一天可以得出新增数据,但是由于存在核销数据的情况,这样计算有时并不准确,有时候累计数后一天数量甚至比前一天可能少,减出来的新增数据就为负数,影响统计和趋势判断。 为了新增数据我还专门写了脚本处理,如果能够直接抓去出来就好了。

BlankerL commented 4 years ago

感谢反馈,这些数据我会核查。

数据异常都是丁香园手动录入数据时产生的,本项目只负责把丁香园每一次更新的数据记录并储存,并不负责数据的异常值的处理。

所有的异常值本身就应该是科研过程中会面对并且需要处理的,项目的存在是帮助你更方便地接触你原本根本获取不到的数据,而不是由我来给你处理好所有内容。

每个人有不同的数据需求,我无法按照每个人的意愿来完成个性化的数据定制。你在提出由我来清理异常值的同时,也有人希望我能够保留所有异常值,异常值的清洗由更专业的人来完成。这个项目目前有900多个Star,意味着有超过900人对数据有需求,每个人挖掘数据的方式可能都不同,我难道需要定制900个不同的字段吗?

所有的异常值的筛选工作也需要你们的反馈,我不是机器人,没办法肉眼分析每一条数据的可靠性。这是一个开源项目,开源项目的就是应该由所有用户来共同贡献。同时,我甚至不用这份数据来进行科研工作,所以我对这份数据的熟悉程度甚至比不上很多用户,这个项目只是我希望为疫情出一分力才诞生的。

为了新增数据我还专门写了脚本处理,如果能够直接抓去出来就好了。

为了让你免费获取到这份数据,我花费了至少100个小时来写代码和维护项目却连一个感谢都没有,我又是何苦?

另外,在质疑我的时候,你是否已经阅读过README文件,你清楚异常数据要到哪里提交吗?

BlankerL commented 4 years ago

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。

同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

Avens666 commented 4 years ago

非常感谢你的工作,确实为很多数据分析人员提供了很大的帮助。辛苦了 提问题并不是抱怨,只是希望能够将数据质量提升的更好。 关于两个数据的具体问题,明天我再整理一下继续讨论 基于你的数据,我也做了一些工作,写了一些脚本,做了一些数据清洗,明天我也准备建个项目将之上传共享 最后再问一下,丁香园没有原始的新增确诊,新增痊愈和新增死亡数据吗?考虑到官方确实经常核销数据,依靠单纯的减去前一天的数据来计算新增数据,确实有少部分数据问题

---原始邮件--- 发件人: "Isaac Lin"<notifications@github.com> 发送时间: 2020年2月15日(周六) 晚上11:59 收件人: "BlankerL/DXY-COVID-19-Data"<DXY-COVID-19-Data@noreply.github.com>; 抄送: "Author"<author@noreply.github.com>;"Evan Chen"<56132958@qq.com>; 主题: Re: [BlankerL/DXY-COVID-19-Data] 异常数据 (#29)

感谢反馈,这些数据我会核查。

数据异常都是丁香园手动录入数据时产生的,本项目只负责把丁香园每一次更新的数据记录并储存,并不负责数据的异常值的处理。

所有的异常值本身就应该是科研过程中会面对并且需要处理的,项目的存在是帮助你更方便地接触你原本根本获取不到的数据,而不是由我来给你处理好所有内容。

每个人有不同的数据需求,我无法按照每个人的意愿来完成个性化的数据定制。你在提出由我来清理异常值的同时,也有人希望我能够保留所有异常值,异常值的清洗由更专业的人来完成。这个项目目前有900多个Star,意味着有超过900人对数据有需求,每个人挖掘数据的方式可能都不同,我难道需要定制900个不同的字段吗?

所有的异常值的筛选工作也需要你们的反馈,我不是机器人,没办法肉眼分析每一条数据的可靠性。这是一个开源项目,开源项目的就是应该由所有用户来共同贡献。同时,我甚至不用这份数据来进行科研工作,所以我对这份数据的熟悉程度甚至比不上很多用户,这个项目只是我希望为疫情出一分力才诞生的。

为了新增数据我还专门写了脚本处理,如果能够直接抓去出来就好了。

为了让你免费获取到这份数据,我花费了至少100个小时来写代码和维护项目却连一个感谢都没有,我又是何苦?

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

BlankerL commented 4 years ago

非常感谢你的工作,确实为很多数据分析人员提供了很大的帮助。辛苦了 提问题并不是抱怨,只是希望能够将数据质量提升的更好。 关于两个数据的具体问题,明天我再整理一下继续讨论 基于你的数据,我也做了一些工作,写了一些脚本,做了一些数据清洗,明天我也准备建个项目将之上传共享 最后再问一下,丁香园没有原始的新增确诊,新增痊愈和新增死亡数据吗?考虑到官方确实经常核销数据,依靠单纯的减去前一天的数据来计算新增数据,确实有少部分数据问题

感谢理解,丁香园只针对中国的全国数据返回新增结果,并不针对地市数据和外国数据返回新增数量。我个人猜测应该是数据统计并不一定准确,可能也存在你说的类似的情况,第二天或许会修正前一天的错误,所以没有办法通过程序自动化地精确计算新增数量吧。

确实没办法针对每个人的需求定制返回的数据字段,如果有需要可以参考两个项目的README文档,文档里有我收录的一些分析工具,里面包含了基础的分析方法。如果你上传了脚本可以在本项目中注明,我也会将你的脚本引用到README中。

Avens666 commented 4 years ago

BlankerL 你好,我已将数据清洗的工作内容上传到如下地址 https://github.com/Avens666/COVID-19-2019-nCoV-Infection-Data-cleaning-

Avens666 commented 4 years ago

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。

同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了 不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

BlankerL commented 4 years ago

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。 同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了 不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

收到,感谢。

今天我浏览数据库,发现丁香园的数据统计有一些问题,数据有比较严重的重复现象,目前我正在解决,稍后我会更新一个版本的数据并且发布通知。

你后面说的这个武汉的数据,我会在处理完这些内容之后再仔细检查一次。

BlankerL commented 4 years ago

BlankerL 你好,我已将数据清洗的工作内容上传到如下地址 https://github.com/Avens666/COVID-19-2019-nCoV-Infection-Data-cleaning-

感谢,今天下午一直在维护数据库,目前已经完成。您的项目已经添加到README文件中。

BlankerL commented 4 years ago

目前最新的数据已经发布,具体的描述可以参考#33,建议使用最新版本的数据。

BlankerL commented 4 years ago

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。 同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了 不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

感谢指正,这条数据已经删除,一个小时以内会在数据仓库内自动更新。