esrille / ibus-hiragana

ひらがなIME for IBus
https://esrille.github.io/ibus-hiragana/
Apache License 2.0
64 stars 4 forks source link

同音語の整理 #149

Closed ShikiOkasaka closed 1 day ago

ShikiOkasaka commented 1 month ago

 漢語には同音語が非常に多く、その文字を見なければ、語意をつかむことのできない場合が少なくない。たとえば保険と保健、健兵と憲兵、機関と汽管、私立と市立、普選と婦選、婦人と夫人、議院と議員、光度計と高度計、化学と化学などの同音語は、その文字を見なければ、意味が不明である。将来はかような目の言葉をできるだけ避けて、耳の言葉に改めることが必要である。

保科孝一,『国語問題五十年』, p250, 昭和24年.

 いまのひらがなIMEの漢字辞書はSKKのML辞書をベースにつくられています。この辞書のなかにも、まだ同音語がたくさんあります。つかうことのない漢語を辞書から削除していければ、漢字変換のコストもさげていくことができます。

手順

 restrained.8.dicは3万行以上あり、いっきに同音語を整理していくのはたいへんです。削除候補となる漢語があれば、ぜひプルリクエストをおくってください。

プルリクエストの例: https://github.com/esrille/ibus-hiragana/pull/150

整理のしかたのかんがえかた

 つぎのような語は標準の漢字辞書・カタカナ辞書から削除しても問題ないとかんがえられます。

 こうした語は、個人用の辞書に登録して対応するようにすれば、日常的な作文のなかでの漢字変換のコストをさげられます。

ShikiOkasaka commented 1 week ago

v0.15.6の辞書内の漢語の統計

辞書 同音語数 語数
restrained.1.dic 31 760
restrained.2.dic 590 3817
restrained.3.dic 1903 8507
restrained.4.dic 3715 13812
restrained.5.dic 6181 19876
restrained.6.dic 8297 24432
restrained.7.dic 15587 39632
restrained.8.dic 18425 44875
restrained.9.dic 18485 45081
ShikiOkasaka commented 1 week ago

2024/7/2時点の漢語の統計

辞書 同音語数 語数
restrained.1.dic 13 633
restrained.2.dic 271 2893
restrained.3.dic 862 5811
restrained.4.dic 1595 8950
restrained.5.dic 2692 11892
restrained.6.dic 3435 13990
restrained.7.dic 9574 28785
restrained.8.dic 11082 30866
restrained.9.dic 11460 33668

28698f465423b31b942a0368af08de3dfa57049c

ShikiOkasaka commented 1 day ago

a39854b0d67544788c309450db72e95519044316 で第一段階は終了としておきます。