lotem / rime-zhengma

鄭碼 Rime 輸入方案
GNU General Public License v3.0
18 stars 7 forks source link

𫝀 𪨢 两字的编码 #2

Closed kandu closed 5 years ago

kandu commented 5 years ago

在现在的码表里面,两字的编码如下: 𫝀 rzxm 𪨢 xmjl

理由如何?

如改成以下编码,是否更恰当? 𫝀 ixa 𪨢 llai

lotem commented 5 years ago

不好意思。我不瞭解鄭碼。 只是原樣收錄了來自上游的數據。

kandu commented 5 years ago

这几个字都是 CJK 扩展 B C 等区,没有公开的中易官方参考。都是后来第三方录入的。

rz 开头的,必得“鸟”起头 xm 开头的,必得“尸”起头

这两个字应是错录,应予修正。

lotem commented 5 years ago

好。還想瞭解一下,這兩個字是用到時偶然發現,還是篩查碼表裏大量編碼後發現的孤例。 如果是前者,我擔心同在擴展區的字會有更多未發現的錯碼。甚至會不會碼表作者當初編碼的字本不是這些擴展區的字,只是借用了當時還閒置的碼位。

kandu commented 5 years ago

還是篩查碼表裏大量編碼後發現的孤例

当前, CJK 扩展 A 区之后,郑码还没有公开的“标准”编码可参考。所以是这两天的偶然发现。 另外,“𫝀”字是 CJK 扩展 D 区的字,照理不会出现在 ibus-table-zhengma 里面,因其说明文档说明,只录入了扩展 A, B, C 等三区。 应该还有许多错码存在,不过即使出错,应该都错在 B C 区里,日常也用不到,不会有大问题。以后见到一个修一个吧。

kandu commented 5 years ago

刚查对了下 D 区十多个字后,发现他们全都编码错误,并且这些错误编码在“超集郑码”的码表中可以找到完全对应。但“超集郑码”中同时也提供了正确的郑码编码。而那些错误编码是排在“超集郑码”靠后位置,猜测其要么是提供“同时支持多码输入”这种技术使用,要么此附表也已被更上游的数据污染。

而查看了 C 区开头的字后,发现其编码也是鲜有正确的。

CJK-B, CJK-C character encodings are come from 一呜惊人 ranglming@126.com

B 区尚未查对,我怀疑这部分编码,至少 C D 部分全是自动转换而来,而且转换程序出错,并没有选择正确编码部分导入,而是导入了“多码输入”/污染部分。

kandu commented 5 years ago

3

kandu commented 5 years ago

4