Closed kunki closed 9 years ago
有對應表嗎?有的話我來轉下。
無對應表,需要肉眼識別,我有空會還原掉的。
這些字都是GBK提交的字,當時unicode還未收全,所以都放到了PUA區。
後來這些字都被unicode收了,且有部分字放到擴展部首區,比如「⺄」(U+2E84
)。
果然80個,先貼出來:
@osfans 提供的對應表不錯,正好是80字。
不過有个疑問,有幾个字在CJK區和增補部首區都有收錄,比如「𥫗」(U+25AD7
)與「⺮」(U+2EAE
)、「𧾷」(U+27FB7
)與「⻊」(U+2ECA
)等。該對應表使用的是「增補部首區」的字而非「CJK區」的字。
原則上來講這種情況應使用「CJK區」的字。如「讠」(U+8BA0
)與「⻈」(U+2EC8
)、「衤」(U+8864
)與「⻂」(U+2EC2
)等字輸入法都是使用的前者。
但是某些字在CJK區沒收,只在增補部首區有出現,比如我提到的「⺄」(U+2E84
)。
因此對增補部首區的字如何取捨仍需要討論。
嗯,你說的應該是CJK部首补充区的14个部首未计入 2E81, 2E84, 2E88, 2E8B, 2E8C, 2E97, 2EA7, 2EAA, 2EAE, 2EB3, 2EB6, 2EB7, 2EBB, 2ECA。 所以對應表使用的是CJK區的字,而不是部首字。那我就直接轉換了。
倉頡中的:
䥇 cism 䥇 chsm
是因爲右邊第一筆不同嗎?
你說的14个部首轉出來是
⺁, ⺄, ⺈, ⺋, ⺌, ⺗, ⺧, ⺪, ⺮, ⺳, ⺶, ⺷, ⺻, ⻊
其中已經在CJK區收錄的字有
⺁(𠂆)、⺈(𠂊)、 ⺋(㔾)、⺗(㣺)、⺧(𠂒)、⺪(𤴔)、⺮(𥫗)、⺳(㓁)、⺷(𦍌)、⻊(𧾷)
p.s. 其中「㣺」需要用港臺字體顯示出來才是「恭」的下方,大陸字體顯示成「忄」多一點。(其實都是「心」字的變體)
其他字沒在CJK區出現。也就是說統計出的14个部首竝不能幫助區分。
我不會倉頡。 猜測異碼的原因是「扇」在大陸字形中从「户」,在臺灣字形中从「戶」。
倉頡中原來就有CJK區的。所以直接用那個表也不錯。哈哈。
-(E815 <私人專用區>) rtt 0
+⺁(2E81) rtt 0
𠂆(20086) rtt 0
還真有重複的,其實應該兩個都要有。
如果碼表沒有收錄同形的部首,就不要加了吧,在候選裏列出兩個無法分辨的字,不好。 部首收在特殊符號裏,用得明白。
好的。那就優先字
所以14個部首當中,有9個有字,另外5個還得使用2E區的部首。 是這樣吧?
剛才我又打了一遍,發現漏了「⺷(𦍌)」,已補上。 @osfans 可幫我複驗一遍。 現在還剩下「⺄⺌⺶⺻」無法找到CJK區的字。 其中「⺶」是「羊」的變體,「⺻」是「𦘒」的變體;「⺄」、「⺌」爲不成字部件。
好,那就10個字,4個部首。
倉頡碼表中的PUA字恐怕得找HKSCS以及細明體的相關映射關係才能解決。
是的,所以本輪不敢替換倉頡了。
quick5裏面應該還是用的大陸pua。
https://github.com/rime/brise/commit/937840595a62589c85dee39bf80c9d34dd521605 連標點符號也用PUA區的,我也是醉了。
又找了一邊,只有這兩個文件裏有HK PUA了:
extra/scj6.dict.yaml
preset/cangjie5.dict.yaml
@osfans 轉換後的wubi86碼表還需要對單字去重一遍。
經査wubi86.dict.yaml中含有PUA區段(
U+E000~U+F8FF
)的字共80个,這應是歷史原因造成的。 需要將這些PUA字還原至對應的CJK區以及擴展部首區(U+2E80~U+2EFF
)。該issue來自http://tieba.baidu.com/p/3782830422