cacaoMath / rss_collect_api

登録されたRSSfeedURLリンク先から、選んだジャンルの記事を収集するAPI
https://rss-api.cacaomath.com/redoc
0 stars 0 forks source link

わかちがきの処理を英語でも満足にできるようにする #39

Open cacaoMath opened 1 year ago

cacaoMath commented 1 year ago

現在mecabで分書を行なっているが、これは日本語に特化していてもし英語(および他言語)を入力した際に分書が貧弱になる。
以下例

cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py
Loading .env environment variables...
[['pen', '名詞-固有名詞-一般']]
cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py
Loading .env environment variables...
[['windows update', '名詞-固有名詞-一般']]
cacaomath@cacaoMathnoMacBook-Air rss_collect_api % pipenv run python app/util/ml_utils.py
Loading .env environment variables...
[['is', '名詞-固有名詞-人名-一般'], ['do', '名詞-固有名詞-人名-一般'], ['you', '名詞-固有名詞-人名-一般'], ['like', '名詞-固有名詞-一般'], ['car', '名詞-固有名詞-一般']]

上記例のように英語の場合認識はされるものの全て名詞となる。 まだ、名詞などに分けられればいいものの"I", "have", "what" などが認識されていなさそう。

細かい分析はできていないが、ジャンル分けの時のデータ不均衡や、データのラベル振りがうまくいかない原因にもなりかねないので、考える必要はありそう