尝试：基于044版，增加“建筑物”的概念

gingercner commented 3 years ago

背景：很多地址信息，有明确的省市和建筑物/街道牌号，但是缺少区的信息思路：对于出现频次较高的建筑物（商场、大厦等），在省市限定范围内，建立与区的匹配关系版本：044版改进 list_location = [ "山东省泰安市迎胜南路王府花园", "陕西省西安市南广济街133号金泰丰大厦" ] df = cpca.transform(list_location, umap={}, cut=False, lookahead=para_lookahead, open_warning=False, pos_sensitive=True) df

省	市	区	物	地址	省_pos	市_pos	区_pos	物_pos
山东省	泰安市	岱岳区	王府花园	迎胜南路王府花园	0	3	-1	10
陕西省	西安市	碑林区	南广济街133号	金泰丰大厦	0	3	-1	6

gingercner commented 3 years ago

“物”只是一个抽象的概念，可以把城乡名称、某某街道、某某道路、某某小区等，都可以定义为“物”的实体。初步尝试，仍可以优化改进～～

DQinYuan commented 3 years ago

可以提个 pr 看看，感觉街道作为官方的第四级行政区划，和别的什么商场，大厦分开比较好。而且街道的数据也是公开。

gingercner commented 3 years ago

确实如此。技术上来说，街道(镇)、村(社区)做为第四级和第五级，都可以做到信息抽取结果里面。但是，从现实中保存的真实地址信息来看，Pca按照文本信息抽取的思路更合适。后面的第四级和第五级，如果能够预先基于大数据资源建立模型特征，直接应用于模型中，更务实一些。

DQinYuan / chinese_province_city_area_mapper

尝试：基于044版，增加“建筑物”的概念 #90