Closed mule-engineer13 closed 2 years ago
https://pypi.org/project/mecab-python3/ mecabをご利用するのはいかがでしょうか?
>>> import MeCab
>>> wakati = MeCab.Tagger("-Owakati")
>>> wakati.parse("pythonが大好きです").split()
['python', 'が', '大好き', 'です']
ご回答ありがとうございます! 早速試してみます!
mule-engineer13と申します。 お忙しいところ、失礼いたします。
pyopenjtalk上での、文章の形態素解析について、質問させていただきます。
●やりたいこと 漢字を含む日本語の文章を漢字・かなのまま、語に分解する
●試したこと colab上で以下を実行
①音素を取得
・結果 ['k', 'o', 'o', 's', 'e', 'e', 'r', 'o', 'o', 'd', 'o', 'o', 'sh', 'o', 'o', 'n', 'i', 'y', 'o', 'r', 'i', 'm', 'a', 's', 'U', 't', 'o', 'o', 'o', 'b', 'e', 'e', 'n', 'a', 'd', 'o', 'o', 'ch', 'u', 'u', 'sh', 'i', 'N', 'n', 'i']
②「語」単位で文章を分割(カナ)
・結果 ['コーセーロードーショー', 'ニ', 'ヨリ', 'マス', 'ト', 'オーベー', 'ナド', 'ヲ', 'チューシン', 'ニ']
●質問 ②のような形で、漢字とかなのまま、文章を分割した結果を得ることは可能でしょうか。 ・取得したいデータの形式の例:['厚生労働省', 'に', 'より', 'ます', 'と', '欧米', 'など', 'を', '中心', 'に']
お手隙の際にご回答いただけますと幸いです。 何卒よろしくお願いいたします。