DQinYuan / chinese_province_city_area_mapper

一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块
MIT License
1.67k stars 396 forks source link

当传入地址含有省份命名的街道时,会被错误解析 #23

Closed LanjiaoGong closed 3 years ago

LanjiaoGong commented 5 years ago

举的例子 都是淘宝地址。

1、含陕西的, 上海 上海市 徐汇区 陕西南路666弄

image

上海 上海市 普陀区 长寿路街道 陕西北路澳门路

image

传入参数 cut=False 也不能正确解析。

2、含四川的,有的能解析正确,有的不能 解析错误: 重庆 重庆市 沙坪坝区 壮志路33号四川外国语大学山下400020:

image

解析正确: 上海 上海市 虹口区 四川北路街道 海泰时代大厦

image
LanjiaoGong commented 5 years ago

举的例子 都是淘宝地址。

1、含陕西的, 上海 上海市 徐汇区 陕西南路666弄

image

上海 上海市 普陀区 长寿路街道 陕西北路澳门路

image

传入参数 cut=False 也不能正确解析。

2、含四川的,有的能解析正确,有的不能 解析错误: 重庆 重庆市 沙坪坝区 壮志路33号四川外国语大学山下400020:

image

解析正确: 上海 上海市 虹口区 四川北路街道 海泰时代大厦

image

原因大概是市的优先级低,这样改一下就能正确解析了:

image
DQinYuan commented 5 years ago

感谢给出的错误用例,目前正在重构项目,会优化这些用例的

gcxx commented 5 years ago

这个问题我也遇到了 麻烦问一下有什么解决思路吗 能不能分享一下 先谢谢了

DQinYuan commented 3 years ago

这个问题已经解决了,请更新到最新版本(0.5.1)

pip install -U cpca
>>> cpca.transform(["上海 上海市 普陀区 长寿路街道 陕西北路澳门路"])
     省    市    区              地址  adcode
0  上海市  市辖区  普陀区   长寿路街道 陕西北路澳门路  310107