DQinYuan / chinese_province_city_area_mapper

一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块
MIT License
1.65k stars 392 forks source link

南京市高淳区砖墙总部经济产业园,该地址识别问题 #60

Closed sailor613 closed 3 years ago

sailor613 commented 4 years ago

我查看了一下pca文件,里面有高淳区这个区,但是出来的结果区列空白,但是如果我把这个地名换成南京市秦淮区砖墙总部经济产业园,中间的秦淮区就能够正常解析出来,我觉得这两个地址没啥区别,为啥一个能出来,另外一个就出不来呢,好奇怪。

aoiy commented 3 years ago

因为调用jieba分词时,'高淳区'被分开了

jieba.lcut('南京市高淳区砖墙总部经济产业园') ['南京市', '高淳', '区', '砖墙', '总部', '经济', '产业园']

可以通过在jieba的词库里添加'../cpca/resources/pca.csv'里的所有地区词条解决这个问题 或使用cut=False参数 cpca.transform(['南京市高淳区砖墙总部经济产业园'], cut=False)

DQinYuan commented 3 years ago

这个问题已经解决了,请更新到最新版本(0.5.1)

pip install -U cpca
>>> cpca.transform(["南京市高淳区砖墙总部经济产业园"])
     省    市    区         地址  adcode
0  江苏省  南京市  高淳区  砖墙总部经济产业园  320118