nopdan / rose

IME User Dictionary Converter. 输入法用户词库转换工具
GNU General Public License v3.0
96 stars 8 forks source link

拼音分割算法 #9

Open nopdan opened 9 months ago

nopdan commented 9 months ago

在一些输入法里不支持带分隔符的拼音词库,只支持用户短语,比如微软的用户自定义短语,手机 Gboard 的个人词典, 这些编码为连续的拼音串 pinyinfengesuanfa。 在以这种格式为源格式时,需要将其转换为带分隔符的编码 pin'yin'fen'ge'suan'fa。 现在的方式是忽略原编码,而由程序自动注音,可能导致注音不准,而且效率低下。 我们需要一个拼音分割算法,由 连续的拼音串(pinyinfengesuanfa) 和 词组(拼音分割算法) 进行分割。

对于有歧义的拆分,可以通过以下信息解决:

nopdan commented 5 months ago

另一种思路,将每个字可能的读音做笛卡尔积,对比拼音串。