DQinYuan / chinese_province_city_area_mapper

一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块
MIT License
1.67k stars 396 forks source link

尝试:基于044版,增加“建筑物”的概念 #90

Open gingercner opened 3 years ago

gingercner commented 3 years ago

背景:很多地址信息,有明确的省市和建筑物/街道牌号,但是缺少区的信息 思路:对于出现频次较高的建筑物(商场、大厦等),在省市限定范围内,建立与区的匹配关系 版本:044版改进 list_location = [ "山东省泰安市迎胜南路王府花园", "陕西省西安市南广济街133号金泰丰大厦" ] df = cpca.transform(list_location, umap={}, cut=False, lookahead=para_lookahead, open_warning=False, pos_sensitive=True) df

地址 省_pos 市_pos 区_pos 物_pos
山东省 泰安市 岱岳区 王府花园 迎胜南路王府花园 0 3 -1 10
陕西省 西安市 碑林区 南广济街133号 金泰丰大厦 0 3 -1 6
gingercner commented 3 years ago

“物”只是一个抽象的概念,可以把城乡名称、某某街道、某某道路、某某小区等,都可以定义为“物”的实体。 初步尝试,仍可以优化改进~~

DQinYuan commented 3 years ago

可以提个 pr 看看,感觉街道作为官方的第四级行政区划,和别的什么商场,大厦分开比较好。而且街道的数据也是公开。

gingercner commented 3 years ago

确实如此。技术上来说,街道(镇)、村(社区)做为第四级和第五级,都可以做到信息抽取结果里面。 但是,从现实中保存的真实地址信息来看,Pca按照文本信息抽取的思路更合适。后面的第四级和第五级,如果能够预先基于大数据资源建立模型特征,直接应用于模型中,更务实一些。