Closed Jinghaoma closed 1 year ago
ご報告ありがとうございます。
tagger.parse
が None
を返すことは以前見たことありますが、 #73 のように入力文が長過ぎることが原因だったので、今回の原因は別にあるようです。
まず確認ですが、neologd無しの場合の動作は正常でしょうか。CLIから実行するとどうなりますか。
-O wakati
と普通の実行の違いから考えると、もしかして出力形式になんらかの問題があります。
また、問題解決とは直接繋がりませんが、neologdは2020年から更新がない、現状でも変な項目が多い(「ヤバい」が固有名詞とか)などの理由から非推奨です。(非推奨でも、正常に動作するはずですが…)
ご返事いただき誠にありがとうございます。
CMDを利用して実行したところ、以下のように文字化けになってしまいました。 おそらくこれが問題だと思います。 多分CMDはshift-jisを利用しているに対して、返事がutf-8によって文字化けになっておりました。
辞書の意見もありがとうございました。今のところ、色んな辞書を試してみたいと存じて、やってみました。できれば動作してみたいです。
宜しくお願い致します。
私が最近見た映画は、約束のネバーランドでした。
私が 陬懷勧險伜捷,荳闊ャ,,,,
ナ 蜷崎ゥ・譎ョ騾壼錐隧・荳闊ャ,,,
゚見た 陬懷勧險伜捷,荳闊ャ,,,,
f 險伜捷,譁・ュ・,,,,繧ィ繝・・ヲ,f,繧ィ繝・f,繧ィ繝・險伜捷,"","","","","","",險伜捷,繧ィ繝・繧ィ繝・繧ィ繝・繧ィ繝・"1","","",1098695718347264,3997
陬懷勧險伜捷,荳闊ャ,,,,
謔ヘ 蜷崎ゥ・譎ョ騾壼錐隧・荳闊ャ,,,
陬懷勧險伜捷,荳闊ャ,,,,
A 險伜捷,譁・ュ・,,,,繧ィ繝シ,・。,A,繧ィ繝シ,A,繧ィ繝シ,險伜捷,"","","","","","",險伜捷,繧ィ繝シ,繧ィ繝シ,繧ィ繝シ,繧ィ繝シ,"1","","",1180884279632384,4296
約束の 陬懷勧險伜捷,荳闊ャ,,,,
l 險伜捷,譁・ュ・,,,,繧ィ繝ォ,・ャ,l,繧ィ繝ォ,l,繧ィ繝ォ,險伜捷,"","","","","","",險伜捷,繧ィ繝ォ,繧ィ繝ォ,繧ィ繝ォ,繧ィ繝ォ,"1","","",1129482043924992,4109
陬懷勧險伜捷,荳闊ャ,,,,
o 險伜捷,譁・ュ・,,,,繧ェ繝シ,・ッ,o,繧ェ繝シ,o,繧ェ繝シ,險伜捷,"","","","","","",險伜捷,繧ェ繝シ,繧ェ繝シ,繧ェ繝シ,繧ェ繝シ,"1","","",1507988921786880,5486
陬懷勧險伜捷,荳闊ャ,,,,
[ 陬懷勧險伜捷,諡ャ蠑ァ髢・,,,,,・サ,[,,[,,險伜捷,"","","","","","",陬懷勧,,,,,"","","",15951575785984,58
ラン 陬懷勧險伜捷,荳闊ャ,,,,
h 險伜捷,譁・ュ・,,,,繧ィ繧、繝・・ィ,h,繧ィ繧、繝・h,繧ィ繧、繝・險伜捷,"","","","","","",險伜捷,繧ィ繧、繝・繧ィ繧、繝・繧ィ
繧、繝・繧ィ繧、繝・"1","","",1014308200915456,3690
陬懷勧險伜捷,荳闊ャ,,,,
ナ 蜷崎ゥ・譎ョ騾壼錐隧・荳闊ャ,,,
オた 陬懷勧險伜捷,荳闊ャ,,,,
B 險伜捷,譁・ュ・,,,,繝薙・,・「,B,繝薙・,B,繝薙・,險伜捷,"","","","","","",險伜捷,繝薙・,繝薙・,繝薙・,繝薙・,"1","","",8835684131545600,32144
EOS
返事が遅くなってすみません。
mecab-python3はutf-8のみに対応しているので、CMDが文字化けしても問題ないと思います。また、CMDやPowershellのエンコードをUTF-8に変更することは可能だと思います。
こちらでmecab-unidic-neologdを試してみましたが、特に問題なく利用できました。
すみませんが、neologdが非推奨、且つ開発者から放置されている以上、こちらでサポートはいたしかねます。
不具合の理由が分てても大変助かりました。 ありがとうございました!
初めまして
windows10を利用しております。
以下のURLでmecab 64 bit UTF-8でインストールし https://github.com/ikegami-yukino/mecab/releases
UniDic for Contemporary Written Japanese (ver.3.1.1)(https://clrd.ninjal.ac.jp/unidic/) 辞書をダウンロードしました。
そしてUniDicを用いて、mecab-unidic-neologd辞書(https://github.com/neologd/mecab-unidic-neologd) をutf-8にコンパイルしました。
そこでこの辞書を利用したところ
にすると、この結果が得ます。
私 が 最近 見 た 映画 は 、 約束のネバーランド でし た 。
しかし
の場合は
None
となりました。
-Owakatiの結果から正常に動作しているようですが、tagger.parseがうまく作動していないのようですが。 助けていただければ幸いです。
よろしくお願いいたします。
ちなみに
の場合はUniDic辞書で動作したようです。