原始配置和词库由雾凇拼音的 af2480b commit 修改而来。
雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。
主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。
然后使用 745396750 字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。
使用方法基本同雾凇拼音,微调了一些触发指令,加入了lua辅助码的支持。辅助码是可选项,按下`开启,不影响正常打字。
https://github.com/gaboolic/rime-frost/blob/master/symbols_v.yaml
下载本仓库的压缩包 Code - Download ZIP(或者下载releases最新的 source-code.zip),解压到如下路径即可
%APPDATA%\Rime
~/Library/Rime
~/.local/share/fcitx5/rime
~/.local/share/fcitx5/rime
~/.var/app/org.fcitx.Fcitx5/data/fcitx5/rime
~/.config/ibus/rime
/Android/data/org.fcitx.fcitx5.android/files/data/rime
/rime
首次安装:
根据用户使用的系统、安装的软件不同,先cd到对应的配置文件的父级目录(例如Windows为%APPDATA%
、mac鼠须管为~/Library/
),然后执行以下命令:
git clone --depth 1 https://github.com/gaboolic/rime-frost Rime
后续更新:
在 Rime 文件夹执行 git pull
即可。
cd ~/Library/Rime && git pull
cd "$env:APPDATA\Rime" && git pull
选择配方(others/recipes/*.recipe.yaml)来进行安装或更新:
整理分词后词频比较高但词库没有的词加进去 - done
写自动化脚本,把句子转成拼音,再用拼音调用 rime_api 生成句子,比对正确率,迭代
加上墨奇码首末字形反查,例如 amq 引导符再打 mu cun 可以打出“村 櫉 梼 树”等字
加上 lua 引导辅助码的功能
2 字词,动词+名词结构,中间加入“了” “完”,结尾加入“没”自动派生词汇。例如拔牙: 拔了牙 拔完牙 拔牙没 没拔牙 拔没拔牙。形容词中间加“不”,例如厉害:厉不厉害
类似第四 四列 = 第四列这种词加上去
统计中文语料中的英文词频
训练一个智能语言模型
雾凇词库 https://github.com/iDvel/rime-ice 白霜词库的初始词库、绝大部分配置来自雾凇词库
结巴中文分词 https://github.com/fxsjy/jieba
汉字转拼音(pypinyin) https://github.com/mozillazg/python-pinyin
MNBVC 超大规模中文语料集 https://github.com/esbatmop/MNBVC 目前已有 33TB 数据量
kenlm https://github.com/kpu/kenlm 官网https://kheafield.com/code/kenlm/
kenlm 教程、python 调用 https://github.com/mattzheng/py-kenlm-model
使用白霜词库的方案
墨奇音形 https://github.com/gaboolic/rime-shuangpin-fuzhuma
墨奇五笔整句 https://github.com/gaboolic/rime-wubi-sentence
薄荷拼音 https://github.com/Mintimate/oh-my-rime
雨燕输入法 https://github.com/gurecn/YuyanIme 一个开箱即用的安卓输入法 内置白霜词库