Open cacaoMath opened 1 year ago
現在mecabで分書を行なっているが、これは日本語に特化していてもし英語(および他言語)を入力した際に分書が貧弱になる。 以下例
cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py Loading .env environment variables... [['pen', '名詞-固有名詞-一般']] cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py Loading .env environment variables... [['windows update', '名詞-固有名詞-一般']] cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py Loading .env environment variables... [['is', '名詞-固有名詞-人名-一般'], ['do', '名詞-固有名詞-人名-一般'], ['you', '名詞-固有名詞-人名-一般'], ['like', '名詞-固有名詞-一般'], ['car', '名詞-固有名詞-一般']]
上記例のように英語の場合認識はされるものの全て名詞となる。 まだ、名詞などに分けられればいいものの"I", "have", "what" などが認識されていなさそう。
細かい分析はできていないが、ジャンル分けの時のデータ不均衡や、データのラベル振りがうまくいかない原因にもなりかねないので、考える必要はありそう
現在mecabで分書を行なっているが、これは日本語に特化していてもし英語(および他言語)を入力した際に分書が貧弱になる。
以下例
上記例のように英語の場合認識はされるものの全て名詞となる。 まだ、名詞などに分けられればいいものの"I", "have", "what" などが認識されていなさそう。
細かい分析はできていないが、ジャンル分けの時のデータ不均衡や、データのラベル振りがうまくいかない原因にもなりかねないので、考える必要はありそう