functoreality / rime-flypy-zrmfast

打字不翻页——Rime 输入法 双拼+辅助码方案
GNU Lesser General Public License v3.0
128 stars 21 forks source link

这套配置似乎忽视了rime自带的增广字符集选项 #9

Open Renkai opened 1 year ago

Renkai commented 1 year ago

我看到rime的 default.yaml 里有

    - {accept: "Control+Shift+5", toggle: extended_charset, when: always}

尝试使用, rime(鼠须管) 会提示CJK baseset/CJK extended 转换. 但是我试了几个拼音, 包括en和da, 似乎不管切换到哪个, 出来的候选词数量是一模一样的.

functoreality commented 1 year ago

其实我之前就没怎么理解增广字符集这个设定,所以也没关注到这点。 在其他方案下是能看出区别的么?有没有一些例子什么的

Renkai commented 1 year ago

暂时没有哈, 还没用过别的方案. 只是觉得候选词里的生僻字好像有些比较靠前, 在想办法处理, 看到了这处设置, 在想有没有可能有关系.

functoreality commented 1 year ago

暂时没有哈, 还没用过别的方案. 只是觉得候选词里的生僻字好像有些比较靠前, 在想办法处理, 看到了这处设置, 在想有没有可能有关系.

生僻字排列靠前这个问题,我怀疑是 Rime 对候选词的排序机制造成的,有时候是 有辅助码的字 和没有辅助码的字([[ 结尾)交替出现,不过也一直没搞清楚具体问题在哪。 目前也没有当作重点解决,毕竟使用时间长,积累了一些输入记录了之后,排在前面的也就都是常用字了。

Renkai commented 1 year ago

看到明月拼音里有一个

filters:
    - "charset_filter@gbk"

应该就是读取 extended_charset 这项配置决定是否需要过滤罕见字的

functoreality commented 1 year ago

比较奇怪的是我这里的 luna_pinyin.schema.yaml 里没这东西,不排除是版本的问题。 不过我还是觉得主要问题应该是在排序而不是筛选。输入法候选里有罕见字其实不是什么大问题,但是这些字应该排在候选列表的末尾,要翻很多页才能看到的那种,而不是和常用字抢前排的位置。原则上 Rime 自带的字频应该是能够保证这点的,但不知为何这个方案的默认排序没有完全按照这个来。

Renkai commented 1 year ago

我看八股文里大部分是词组而非单子, 会不会自带字频里的字收录得不够多? https://github.com/rime/librime/blob/master/data/minimal/essay.txt

Renkai commented 1 year ago

关于charset filter, 看了这个 issue 我大概明白了, 是一个早期功能, 后来因为性能原因被去掉了, 只是早期流散出去的文档没有被清除也没有说明适用的版本? https://github.com/rime/home/issues/91

functoreality commented 1 year ago

我看八股文里大部分是词组而非单子, 会不会自带字频里的字收录得不够多? https://github.com/rime/librime/blob/master/data/minimal/essay.txt

之前忘记拼音输入法里多音字不同读音的词频有区别了,单字的词频应该是在方案的字典文件里。我用的字典是从朙月拼音的转换来的,这部分字频设置的应该没有问题,只是不知道 Rime 怎么就处理成这样了。

gaboolic commented 6 months ago

这个问题是rime低版本的问题,新版本应该就好了 我是在词库use_preset_vocabulary: false 彻底没用八股文

gaboolic commented 6 months ago

image 我用新版的对的

而旧版本既不是字典序 也不是字频序, 皑在很前