IshidaMotohiro / RMeCab

Interface to MeCab
30 stars 10 forks source link

Windows版R-4.2.0への対応について #20

Closed IshidaMotohiro closed 4 months ago

IshidaMotohiro commented 2 years ago

Windows版R-4.2.0から、デフォルトの文字コードがUTF-8となりました。また32bitバイナリが廃止され、インストールされるRは64bitです。 一方で、MeCab の Windowsバイナリ は公式には32bit版のみが公開されており、デフォルトの文字コードもShift-Jis です。

そのため、今後は MeCab の公式バイナリではなく、https://github.com/ikegami-yukino/mecab/releases/tag/v0.996 にある私的なバイナリを利用させてもらうおうと考えています。なお、すでに32bit版MeCabがインストールされている場合はアンインストールしてから、64bit版MeCabを、文字コードをUTF-8に変更してインストールしてください。

また RMeCab への入出力文字コードについても、今後はOSを問わず UTF-8 に統一する方針です。Windowsの(現段階の)デフォルト文字コードであるCP932で作成されたファイルはサポートしません(RMeCab内部で暗黙理に変換することはいたしません)。

試しにWindows版R-4.2.0用のRMeCab_1.08バイナリを作成してみました。まだ検証の途中ですが、現在、インストール可能な状態にしているつもりです。(検証済み RMeCab_1.10 を公開済みです)

install.packages("RMeCab", repos="https://rmecab.jp/R")

様子を見て、最終的な調整を行いたいと思っています。以上、暫定的な報告になりますが、よろしくお願いします。 なお、私家版MeCabのインストール、またRMeCabのインストールは自己責任でお願いいたします。

余談ですが、RおよびRStudioをWindowsでインストールされる場合、インストール先がOneDriveと指定される場合があります。このときは、Cドライブ直下などに変更してください。インストール後、最初にパッケージを導入する場合は、R単体を起動して行ってください。これにより、自身のドキュメントフォルダに書き込み権限のあるRパッケージ用フォルダが作成されます。以降、RStudioでパッケージをインストールする場合にも、この書き込み権限のあるフォルダへインストールされるようになります。