geonlp-platform / pygeonlp

pygeonlp, A python module for geotagging Japanese texts.
https://geonlp.ex.nii.ac.jp/
BSD 2-Clause "Simplified" License
19 stars 1 forks source link

NEologd 連携すると一部の住所がジオコーディングできなくなる #8

Closed t-sagara closed 3 years ago

t-sagara commented 3 years ago

NEologd を利用すると「多摩市落合」が一語になるため、 地名解析辞書に該当するエントリが見つからず、地名語として認識されない。 そのため住所ジオコーダに問い合わせが行なわれず、住所ジオコーディングもできない。

t-sagara commented 3 years ago

jageocoder の trie index を利用し、 common prefix から地名語候補を探して address_class と一致するものが含まれていれば住所ジオコーディングを行なう。

ただし、単語の分割は形態素解析の結果を変更しない方針のため、 住所は抽出できるが、住所要素に含まれる形態素列は「多摩市落合」として一語のまま、 名詞・固有名詞 として解析される。

この機能のテストのため、 tests/tests_api_geocoder_neologd を追加。

t-sagara commented 3 years ago

「鹿児島県枕崎市」のように、全体が1語になる場合にまだ解析できない。