geonlp-platform / pygeonlp

pygeonlp, A python module for geotagging Japanese texts.
https://geonlp.ex.nii.ac.jp/
BSD 2-Clause "Simplified" License
19 stars 1 forks source link

MeCabユーザ辞書に関する言及 #20

Open KatHaruto opened 10 months ago

KatHaruto commented 10 months ago

お世話になっております。

MeCabのユーザ辞書を利用したく、ドキュメントには記載がありませんでしたがソースコードに該当する箇所をみつけました。コードによるとデータベースのディレクトリにmecabusr.dicファイルをユーザ辞書としてmecabが認識できるとなっています。

こちらは意図してドキュメントに記載していないのでしょうか?

例えば自然言語から新河岸駅名、新横浜という駅名を抽出する際に以下のようになります。

$ echo 新河岸 | pygeonlp geoparse
新      接頭詞,名詞接続,*,*,*,*,新,シン,シン
河岸    名詞,一般,*,*,*,*,河岸,カワギシ,カワギシ
EOS

$ echo 新横浜 | pygeonlp geoparse
新横浜  名詞,固有名詞,地名語,Gs6AGe:新横浜駅,*,,新横浜,,        鉄道施設/鉄道駅,Gs6AGe,新横浜駅,139.617425,35.506765
EOS

そこで。新河岸を認識できるようにmecabusr.dicに追加してやると、

echo 新河岸 | pygeonlp geoparse
新河岸 名詞,固有名詞,一般,*,*,名詞-固有名詞-地名語,新河岸,,    
EOS

と認識できるようになります。

t-sagara commented 6 months ago

はい、ご指摘の通りユーザ辞書を作成すればそちらも読み込むようになっています。 ドキュメントを拡充する際にどこかに追記させていただきます。