Open gingercner opened 3 years ago
“物”只是一个抽象的概念,可以把城乡名称、某某街道、某某道路、某某小区等,都可以定义为“物”的实体。 初步尝试,仍可以优化改进~~
可以提个 pr 看看,感觉街道作为官方的第四级行政区划,和别的什么商场,大厦分开比较好。而且街道的数据也是公开。
确实如此。技术上来说,街道(镇)、村(社区)做为第四级和第五级,都可以做到信息抽取结果里面。 但是,从现实中保存的真实地址信息来看,Pca按照文本信息抽取的思路更合适。后面的第四级和第五级,如果能够预先基于大数据资源建立模型特征,直接应用于模型中,更务实一些。
背景:很多地址信息,有明确的省市和建筑物/街道牌号,但是缺少区的信息 思路:对于出现频次较高的建筑物(商场、大厦等),在省市限定范围内,建立与区的匹配关系 版本:044版改进 list_location = [ "山东省泰安市迎胜南路王府花园", "陕西省西安市南广济街133号金泰丰大厦" ] df = cpca.transform(list_location, umap={}, cut=False, lookahead=para_lookahead, open_warning=False, pos_sensitive=True) df