DQinYuan / chinese_province_city_area_mapper

一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块
MIT License
1.65k stars 390 forks source link

如何有效识别“朝阳区” #78

Closed vicsword11 closed 3 years ago

vicsword11 commented 3 years ago

应该是北京市的 “朝阳区汉庭酒店大山子店“
识别成了“吉林省 长春市 朝阳区 汉庭酒店大山子店 220104” 请问可以怎么调整映射关系

waketzheng commented 3 years ago

Show your code please

DQinYuan commented 3 years ago

一个比较 trick 的方法是到项目的 adcodes.csv 中把 吉林省朝阳区(220104) 的那一条数据给删了。后面我们会提供一个参数来自定义映射的

DQinYuan commented 3 years ago

最新版本(0.5.5及以上)已经可以了,见文档:

cpca.transform(["朝阳区汉庭酒店大山子店"],umap={"朝阳区":"110105"})
#     省    市    区        地址  adcode
#0  北京市  市辖区  朝阳区  汉庭酒店大山子店  110105