lotem / rime-zhengma

鄭碼 Rime 輸入方案

GNU General Public License v3.0

18 stars 7 forks source link

𫝀𪨢两字的编码 #2

Closed kandu closed 5 years ago

kandu commented 5 years ago

在现在的码表里面，两字的编码如下：𫝀 rzxm 𪨢 xmjl

理由如何？

如改成以下编码，是否更恰当？𫝀 ixa 𪨢 llai

lotem commented 5 years ago

不好意思。我不瞭解鄭碼。只是原樣收錄了來自上游的數據。

kandu commented 5 years ago

这几个字都是 CJK 扩展 B C 等区，没有公开的中易官方参考。都是后来第三方录入的。

rz 开头的，必得“鸟”起头 xm 开头的，必得“尸”起头

这两个字应是错录，应予修正。

lotem commented 5 years ago

好。還想瞭解一下，這兩個字是用到時偶然發現，還是篩查碼表裏大量編碼後發現的孤例。如果是前者，我擔心同在擴展區的字會有更多未發現的錯碼。甚至會不會碼表作者當初編碼的字本不是這些擴展區的字，只是借用了當時還閒置的碼位。

kandu commented 5 years ago

還是篩查碼表裏大量編碼後發現的孤例

当前, CJK 扩展 A 区之后，郑码还没有公开的“标准”编码可参考。所以是这两天的偶然发现。另外，“𫝀”字是 CJK 扩展 D 区的字，照理不会出现在 ibus-table-zhengma 里面，因其说明文档说明，只录入了扩展 A, B, C 等三区。应该还有许多错码存在，不过即使出错，应该都错在 B C 区里，日常也用不到，不会有大问题。以后见到一个修一个吧。

kandu commented 5 years ago

刚查对了下 D 区十多个字后，发现他们全都编码错误，并且这些错误编码在“超集郑码”的码表中可以找到完全对应。但“超集郑码”中同时也提供了正确的郑码编码。而那些错误编码是排在“超集郑码”靠后位置，猜测其要么是提供“同时支持多码输入”这种技术使用，要么此附表也已被更上游的数据污染。

而查看了 C 区开头的字后，发现其编码也是鲜有正确的。

CJK-B, CJK-C character encodings are come from 一呜惊人 ranglming@126.com

B 区尚未查对，我怀疑这部分编码，至少 C D 部分全是自动转换而来，而且转换程序出错，并没有选择正确编码部分导入，而是导入了“多码输入”/污染部分。

kandu commented 5 years ago

3

kandu commented 5 years ago

lotem / rime-zhengma

𫝀 𪨢 两字的编码 #2

3

4

𫝀𪨢两字的编码 #2