Closed garywill closed 7 months ago
支持删掉这些没啥用的字,或者至少单独放着。
我甚至想要只包含中国大陆规范中的字,去除各种繁体异体。
我甚至想要只包含中国大陆规范中的字,去除各种繁体异体。
繁体异体还不算最离谱的,现实是连日本专用新字形也在码表里
我做了一个工具用以发现这些特殊字符 https://garywill.github.io/cc-visualize/
其实这样很容易造成人打错字的,比如「步行」的「步」字,如果你记忆失误,把其下半部分记成了「少」(多了一点),那么刚好有一个日本字在那让你选
hir 步
hitr 歩 《==这个是日本字
不只是这个五笔码表有这样的问题。我简略测试了一下别的输入法和其他地方repo的码表,许多都有类似的问题
@garywill 我没看明白你这个工具的数据在哪里。我想用你的数据写个命令行版本来处理我的码表。
@lilydjwg
opencc-data/
unicode-data/
summary-data/ 这里面是结合了以上两者的数据,用这个吧
数据是包装在.js
的文件里的。若看到以类似
summary_data = {
..... 很多很多行
}
开头的.js文件就是数据。
xxxx-data/
下面的pre
开头的文件是预处理(shell及node),用来将原始数据生成以上.js
包装的数据(已生成好了,不用管)
至于如何使用这些数据,你可以参考根目录下的那几个.js
文件(先看unusual_conditions.js
吧,里面是如何判断一个字符属于”非寻常“字符)
不知道这样说清楚了没。。
我想用你的数据写个命令行版本来处理我的码表。
如果你真的弄好了cli,PR一个给我吧,我也在想要有个cli的来处理local text files 处理好生成了码表共享一下 :)
感谢解释,我已经把自己的码表处理好了。所有代码公开,但是码表含有私人信息,无法共享。新写的 filter-lines 功能比较简陋,我先不发 pr 了。
我的处理流程:
libime_tabledict -d ~/.local/share/fcitx5/table/lilywb.main.dict main.txt
libime_tabledict -du ~/.local/share/fcitx5/table/lilywb.user.dict user.txt
tabledict_combine main.txt user.txt > combined.txt
cargo run --release < combined.txt > filtered.txt
cargo run --release < combined.txt > filtered-with-others.txt
vimdiff filtered.txt filtered-with-others.txt
fcitx5-tabledict < filtered.txt
libime_tabledict -d ~/.local/share/fcitx5/table/lilywb.main.dict main.txt
libime_tabledict -du ~/.local/share/fcitx5/table/lilywb.user.dict user.txt
tabledict_combine main.txt user.txt > combined.txt
libime_tabledict main.txt lilywb.main.dict
过去的 pua 区的字符是在老系统上 gbk 到 unicode 转换造成的,已经在 https://github.com/fcitx/libime/commit/ed70dc4ef1e2223da2a12d907b4adb2e4bf9f9ae 去掉
关于码表疑问
开始问之前:
根据之前这个PR的处理(https://gitlab.com/fcitx/fcitx-table-extra/-/merge_requests/9 )我当时想将
wubi-large.txt
里兼容区字符搜(FA8E)
换成统一区的搜(641C)
。当时的维护者添加了漏掉了的统一区字符,不删除兼容区的,同时保留两者。wbx.txt
in fcitx-table-datawubi-large.txt
in fcitx5-table-extra那么,我的理解:五笔码表3种,只有
wbx.txt
是给普通的五笔86用户日常所用的现在,码表里发现,https://github.com/fcitx/fcitx-table-data/blob/master/wbx.txt 中有以下兼容区字符:
我认为是否应删除? 或许至少应该删除前7个有对应Unihan
kCompatibilityVariant
的(即,Unicode认为这些汉字兼容字符不应使用,人们应该使用其所对应的统一汉字字符)删除的理由还有:
fcitx5-table-extra/
的文件(搜索词为郎|凉|秊|裏|隣|兀|嗀|礼|蘒|
),许多IM也没有这些字符附:wbx.txt里那些兼容区字符所在:
另外这还有一个乱码
� 65533 FFFD