BlankerL / DXY-COVID-19-Crawler

2019新型冠状病毒疫情实时爬虫及API | COVID-19/2019-nCoV Realtime Infection Crawler and API
https://lab.isaaclin.cn/nCoV/
MIT License
1.99k stars 400 forks source link

可否在接口中加上area_code字段呀 #31

Closed JoshuaYF closed 4 years ago

JoshuaYF commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

BlankerL commented 4 years ago

丁香园只对国家和省份进行编码,没有对市/区进行编码。


2月12日更新: 目前所有丁香园提供locationId的条目均已经补全,省级数据已全部补全,市级数据补全90%以上。

暂未补全的条目有:

Updated on February 12: So far, locationId provided by Ding Xiang Yuan is available for all historical data as well. All the province-level data and 90% of city-level have their locationId.

locationId still not available for:

hack-fang commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

BlankerL commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

我没有自己使用这个数据,有“徐汇”/“徐汇区”频繁交替出现的现象吗?

丁香园录入数据的人时常发生变化(丁香园数据中operator字段应该指是录入数据的人的ID),所以可能有这种现象发生。

如果是在某个时间点发生改变,就用你提供的这份json文件即可;如果是交替出现,我可以在数据录入数据库的时候做一下统一。

hack-fang commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

我没有自己使用这个数据,有“徐汇”/“徐汇区”频繁交替出现的现象吗?

丁香园录入数据的人时常发生变化(丁香园数据中operator字段应该指是录入数据的人的ID),所以可能有这种现象发生。

如果是在某个时间点发生改变,就用你提供的这份json文件即可;如果是交替出现,我可以在数据录入数据库的时候做一下统一。

没有交替出现,问题是丁香园对城市的命名不太统一,有的是xx市,有的是xx 。 这个json文件是我根据丁香园的数据手动整理出来的。。。

JoshuaYF commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

感谢!

JoshuaYF commented 4 years ago

因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

我没有自己使用这个数据,有“徐汇”/“徐汇区”频繁交替出现的现象吗?

丁香园录入数据的人时常发生变化(丁香园数据中operator字段应该指是录入数据的人的ID),所以可能有这种现象发生。

如果是在某个时间点发生改变,就用你提供的这份json文件即可;如果是交替出现,我可以在数据录入数据库的时候做一下统一。

也不算交替出现,之前上海和北京的都是XX,刚才突然变成了XX区

BlankerL commented 4 years ago

😢这方面丁香园确实任性…稍微一变动我们就要跟着改。我尝试把历史数据和未来提取的数据都做一下转换吧。

On 31 Jan 2020, at 23:20, kaifang notifications@github.com wrote:

 因为之前接口返回的是类似于徐汇、长宁、浦东...现在变成了徐汇区、长宁区、浦东新区。

你可能需要的是这个。。。 https://github.com/hack-fang/nCov/blob/master/province_cities.json

我没有自己使用这个数据,有“徐汇”/“徐汇区”频繁交替出现的现象吗?

丁香园录入数据的人时常发生变化(丁香园数据中operator字段应该指是录入数据的人的ID),所以可能有这种现象发生。

如果是在某个时间点发生改变,就用你提供的这份json文件即可;如果是交替出现,我可以在数据录入数据库的时候做一下统一。

没有交替出现,问题是丁香园对城市的命名不太统一,有的是xx市,有的是xx 。 这个json文件是我根据丁香园的数据手动整理出来的。。。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

haoyuns commented 4 years ago

另外有个问题,不是丁香园的锅,是各省发布数据的问题:有些地级市下辖的县级市会独立发布数据,需要统一合并,新疆那里的兵团们就更不用说了~

BlankerL commented 4 years ago

另外有个问题,不是丁香园的锅,是各省发布数据的问题:有些地级市下辖的县级市会独立发布数据,需要统一合并,新疆那里的兵团们就更不用说了~

抱歉,请问有具体的例子吗?我没有对数据进行进一步挖掘,并不是很理解这是什么意思。

haoyuns commented 4 years ago

另外有个问题,不是丁香园的锅,是各省发布数据的问题:有些地级市下辖的县级市会独立发布数据,需要统一合并,新疆那里的兵团们就更不用说了~

抱歉,请问有具体的例子吗?我没有对数据进行进一步挖掘,并不是很理解这是什么意思。

例如公主岭的数据应该归属于四平市,兵团第四师的数据应该归属于伊宁市,如果按标准地名、或地级市来看的话,卫健委数据里很多没有合并

BlankerL commented 4 years ago

另外有个问题,不是丁香园的锅,是各省发布数据的问题:有些地级市下辖的县级市会独立发布数据,需要统一合并,新疆那里的兵团们就更不用说了~

抱歉,请问有具体的例子吗?我没有对数据进行进一步挖掘,并不是很理解这是什么意思。

例如公主岭的数据应该归属于四平市,兵团第四师的数据应该归属于伊宁市,如果按标准地名、或地级市来看的话,卫健委数据里很多没有合并

抱歉,我更希望尊重原始数据,如果有后续数据合并的需求,需要自己根据需求来完成。但是您说的这个问题我会在README文件里面告诉使用者。

haoyuns commented 4 years ago

另外有个问题,不是丁香园的锅,是各省发布数据的问题:有些地级市下辖的县级市会独立发布数据,需要统一合并,新疆那里的兵团们就更不用说了~

抱歉,请问有具体的例子吗?我没有对数据进行进一步挖掘,并不是很理解这是什么意思。

例如公主岭的数据应该归属于四平市,兵团第四师的数据应该归属于伊宁市,如果按标准地名、或地级市来看的话,卫健委数据里很多没有合并

抱歉,我更希望尊重原始数据,如果有后续数据合并的需求,需要自己根据需求来完成。但是您说的这个问题我会在README文件里面告诉使用者。

嗯嗯,当然,因为讨论到area code所以想提醒一下

BlankerL commented 4 years ago

目前丁香园已经全面返回locationId字段,针对中国地区使用邮编,针对其他国家使用的编码暂不确定。我会回溯所有历史数据并且完成编码,完成后会在此Issue内进行通知。

BlankerL commented 4 years ago

目前所有丁香园提供locationId的条目均已经补全,省级数据已全部补全,市级数据补全90%以上。

暂未补全的条目有:


So far, locationId provided by Ding Xiang Yuan is available for all historical data as well. All the province-level data and 90% of city-level have their locationId.

locationId still not available for: