IshidaMotohiro / RMeCab

Interface to MeCab
29 stars 10 forks source link

辞書の整備について #27

Closed Kazuki-Isomura closed 5 months ago

Kazuki-Isomura commented 8 months ago

磯村和樹と申します。もう覚えておられないかもしれませんが、以前、東日本大震災被災地の住民証言分析をRMeCabで行っていた際、石田先生にメールで問い合わせにご対応いただいたことがございます。その節は誠にありがとうございました。

RMeCabのHPを確認していた際、こちらから問合せを、と記載があり、今回はこちら(GitHub)から問合せております。

もう一度RMeCabを用いた分析をしようとしております。 ほとんどの操作は、「Rによるテキストマイニング第2版」の通りに行うことができたのですが、p.20-23の辞書の整備だけうまくいきません。 コマンドプロンプトでは、done!と表示されたのですが、その後docDF()を実行してみても、下記のようになり「基広」となりませんでした。

TERM POS1 POS2 Row1 1 基 名詞 固有名詞 1 2 広い 形容詞 自立 1 3 石田 名詞 固有名詞 1

こちらで行った作業と作成したcsvとdicデータをお送りいたしますので、間違った箇所がないかみていただけないでしょうか?

お手数をおかけし大変恐縮ですが、何卒よろしくお願いいたします。

 ↓↓↓↓

<作業> ・↓のURLのCSVデータをエクセルで作成 ・CSVデータをC:\R\Practice\practicejisyo に保存。 ・コマンドプロンプトで下記のように入力(done!とは表示される)

C:\Users\lskaz>cd /d C:\Program Files\MeCab\bin C:\Program Files\MeCab\bin>mecab-dict-index.exe -d "c:\Program Files\MeCab\dic\ipadic" -u c:\R\Practice\practicejisyo\motohiro.dic -f utf-8 -t utf-8 c:\R\Practice\practicejisyo\motohiro.csv *MeCabのフォルダはなぜかインストールした際から(x86)でない方のフォルダになっており、そちらとしております *csvとdicの保存場所はこちらで作ったフォルダに入れております。 *RMeCab HPにSHIFT-JISでなくUTF-8でと記載があったので、そのようにしております。

・下記を実行してみたのですが、上記の結果となりました。 (docDF(data.frame(X = "石田基広"), "X", type = 1, dic = "C:/R/Practice/practicejisyo/motohiro.dic"))

<作成したデータ> https://drive.google.com/drive/folders/1XFOq9GVkCobKpYkTL6LbRCqiXXcYZ5FH?usp=sharing

IshidaMotohiro commented 6 months ago

大変恐縮ですが、見落としおりまして、今日、ご投稿に気が付きました。 確認したところ、WindowsではMeCab本体がユーザー辞書の指定を無視してしまうようで、いまのところ、対策が思いつきません。少し調べてみます。

IshidaMotohiro commented 6 months ago

正確には正規のMeCabではなく、フォークされた64bit版のMeCabの挙動ということになります。 https://github.com/ikegami-yukino/mecab/releases/

Kazuki-Isomura commented 6 months ago

お忙しい中、ご確認ありがとうございます。もし何か対策が分かりましたら、ご教示いただけましたら幸いです。

IshidaMotohiro commented 6 months ago

本件ですが、私がWindowsに慣れていないもので原因に思い当たるのに時間がかかりました。 辞書がファイルの文字コードが BOM付きUTF-8になっていないでしょうか。 一度、メモ帳で開き、単にUTF-8を指定して、保存し、辞書を作成したところ、辞書を指定することができました。

スクリーンショット 2024-05-18 153023

"C:\Program Files\MeCab\bin\mecab-dict-index.exe" -d "c:\Program Files\MeCab\dic\ipadic" -u e:\R\bom.dic -f utf-8 -t utf-8 e:\R\bom.csv

スクリーンショット 2024-05-18 153127
Kazuki-Isomura commented 6 months ago

ありがとうございます!試してみます。