Open kujirahand opened 1 month ago
プログラムの中で語彙登録を可能にしておく 語彙登録があれば、辞書を更新して、それを用いて形態素解析を行う 語彙登録がなければ、辞書更新を飛ばして標準辞書で形態素解析を行う
JSの形態素解析ライブラリ https://github.com/takuyaa/kuromoji.js なんてのもあるので、これを使うと、何もすることがなさそう。
動作速度の問題を考えたら、Rust+WebAssemblyでやるのも良さそう https://github.com/daac-tools/vibrato https://tech.legalforce.co.jp/entry/2022/09/20/133132
kuromoji/mecabベースのRustのライブラリがあった Lindera:
ただし、辞書が数十メガになるので、サーバ側で形態素解析だけして、コンパイルはクライアントでという形もありかも。 あるいは、形態素解析辞書を限定されたものにするとか。 というか、形態素解析をサーバ側で行うなら、普通にMeCabでもなんでも使えるのかも。
現状のなでしこは、リソースの限られた環境では、助詞を利用した強制単語分割ルールは、うまく動いています。 しかし、昨今、形態素解析の負荷もそれほど高くないので、形態素解析ルールを導入した、プログラミング言語も一考の価値ありです。 ただし、既存の助詞区切りルールと併用する方法もあり。