akaza-im / akaza-default-model

Default model data repository of the Akaza IM
MIT License
2 stars 1 forks source link

複合語化処理時に単語の頻度を考慮する #8

Closed tokuhirom closed 1 year ago

tokuhirom commented 1 year ago

https://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/C4-3.pdf

にあるとおり、mozc では以下のように処理されている。

具体的には, 複合語化したい単語列を, 形態素列の正規表現パターン (複合語化ルール) を使って Web コーパスから抽出し, 頻度が一定のしきい値以上のものを複合語として辞書に登録する.

一方で、akaza-default-model では、とにかくパターンがマッチしたものを複合語化している。 この結果、複合語化しなければ unigram 言語モデルに登録されたものが、登録されなかったというケースが発生している。

tokuhirom commented 1 year ago

現在は

というふうになっているが、今後は

というふうに、フェーズをわけたらどうか。

tokuhirom commented 1 year ago

実際にデータを眺めたところ、複雑さのわりにそこまでこの処理をすることのメリットが多くなさそうだという結論。 特に wikipedia はある程度文体が統一されているので、複合語化されるべきものはされていそうである。

tokuhirom commented 1 year ago

検討終わり。

tokuhirom commented 1 year ago

誰か実装したい人がいたらやってもらっても構わない、といった程度。