geonlp-platform / pygeonlp

pygeonlp, A python module for geotagging Japanese texts.
https://geonlp.ex.nii.ac.jp/
BSD 2-Clause "Simplified" License
19 stars 1 forks source link

後続の語の一部が住所の一部と認識されてしまう #2

Closed t-sagara closed 3 years ago

t-sagara commented 3 years ago

jageocoderを利用すると「喜多方市 三島町」が「喜多方市字三丁目」と解析され、「島町」が消える。

>>> import pygeonlp.api as api
>>> import jageocoder
>>> api.init()
>>> dbdir = api.get_jageocoder_db_dir()
>>> jageocoder.init(f'sqlite:///{dbdir}/address.db', f'{dbdir}/address.trie')
>>> api.geoparse('喜多方市 三島町', jageocoder=jageocoder)
[{'type': 'Feature', 'geometry': {'type': 'Point', 'coordinates': [139.871147, 37.650179]}, 'properties': {'surface': '喜多方市三', 'node_type': 'ADDRESS', 'morphemes': [{'surface': '喜多方市', 'node_type': 'GEOWORD', 'morphemes': {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '喜多方市', 'pos': '名詞', 'prononciation': '', 'subclass1': '固有名詞', 'subclass2': '地名語', 'subclass3': '0gQoqV:喜多方市', 'surface': '喜多方市', 'yomi': ''}, 'geometry': {'type': 'Point', 'coordinates': [139.874484, 37.651134]}, 'prop': {'address': '福島県喜多方市', 'body': '喜多方', 'body_variants': '喜多方', 'code': {}, 'countyname': '', 'countyname_variants': '', 'dictionary_id': 1, 'entry_id': '07208A1968', 'geolod_id': '0gQoqV', 'hypernym': ['福島県'], 'latitude': '37.65113400', 'longitude': '139.87448400', 'ne_class': '市区町村', 'prefname': '福島県', 'prefname_variants': '福島県', 'source': '1/喜多方市役所/喜多方市字御清水東7244-2/P34-14_07.xml', 'suffix': ['市'], 'valid_from': '', 'valid_to': '', 'dictionary_identifier': 'geonlp:geoshape-city'}}, {'surface': '三島町', 'node_type': 'NORMAL', 'morphemes': {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '三島町', 'pos': '名詞', 'prononciation': '', 'subclass1': '固有名詞', 'subclass2': '地域', 'subclass3': '一般', 'surface': '三島町', 'yomi': ''}, 'geometry': None, 'prop': None}], 'address_properties': {'id': 4555440, 'name': '字三丁目', 'x': 139.871147, 'y': 37.650179, 'level': 5, 'note': None, 'fullname': ['福島県', '喜多方市', '字三丁目']}}}]