Closed tsunodaissei closed 3 years ago
Windowsでお使いだと思うのですが、デフォルトではMeCabもRもRMeCabの Shift−JIS(CP932)を想定しています。逆に言うと、Windows環境では、通常、 MeCab もRMeCabも、対象ファイルがShift-JISでなければ、正常に動作しません。
早速のご返答ありがとうございます。 Shift−JIS(CP932)にて再度試みてみます。 取り急ぎご返信まで。
kumo.txt(UTF-8で保存されている) を開いて、「ファイル」>「名前を付けて保存」>「文字コード:UTF-8」を「ANSI]に変えて保存し直しました。するとcollocate()がうまく動きました。文字コードの欄にShift-JISはなかったので最初わからなかったのですが、どうやらANSIを使えばいいとのことでした。R-studio側の文字コードはUTF-8のままでしたが、うまく動作しました。
ありがとうございました。
WindowsでRStudioを使われるのであれば、文字コードはCP932に戻しておいたほうがいいかもしれません。 R/RStudio では、パソコンのデフォルト文字コード設定がなんであれ、UTF-8は普通に解釈され、表示等にも問題は生じません。
(逆にWindowsで操作しているにもかかわらず、いつの間にか文字コードがShift-JISからUTF-8に変換されてしまっていることがあります。)
R-studioの設定はもともとUTF-8でした。日本語を使用するのなら、RとR-studioの設定はCP932にしたほうが安全なのですね。 ご教示いただきありがとうございます。
度々のコメントですが、 Markdown (Rmdファイル)から HTMLファイルやPDFファイルを出力する場合、Windowsであってもファイルの文字コードをUTF-8にしておかないとエラーが生じる場合があります。
歯切れ悪くて恐縮ですが、ケースバイケースとご認識ください。
承知いたしました。 Windowsではtxtファイルは標準ではUTF-8で保存されていたので、RMeCabを使用する際には思わぬ落とし穴だなと思いました。 何はともあれ、うまく動いたので良かったです。
質問:日本語に対してRMecCabをうまく動かせるようにしたい。
RMeCabパッケージの関数を日本語のテキストデータに対して実行すると以下のようになり失敗します。 極楽not foundとなっていますが、実際には極楽は存在します。ちなみに英語のみのテキストデータに対してはうまく動きます。
ここでも今日質問しました。https://ja.stackoverflow.com/questions/83485/rmecab%e3%81%8c%e6%97%a5%e6%9c%ac%e8%aa%9e%e3%81%a7%e3%81%af%e3%81%86%e3%81%be%e3%81%8f%e3%81%84%e3%81%8d%e3%81%be%e3%81%9b%e3%82%93