Open ztl8702 opened 6 years ago
從單純的錄入的角度出發,一些字雖然重複編碼,但已存在字形差異,不建議直接籠統的標準化。 例如:爲 (U+7232) vs 為 (U+70BA)。 原文用哪個字形就選用符合的那個字錄入比較好。在進一步使用的場景下,再擴展或遵從特定標準進行篩選,例如:Rime碼表建議「爲」和「為」兼收。
我指的是基本上字形無差異的重複編碼。比如: 弄 U+5F04 (Glyphwiki) 和 弄 U+F943 (Glyphwiki)
https://ctext.org/faq/normalization/zh 列出的很多是這種類型的重複編碼。
兩對在 Unihan Database 裏面都被標爲(互爲) kZVariant。不過從實際來看兩對的差異程度並不相同。這樣變相而言,意味着我們需要根據實際使用場景定製一個標準化表。
比如規定:“對DFD,保留 爲 (U+7232) 、 為 (U+70BA)對立,合併 弄 (U+5F04) 、 弄 (U+F943)”。然後用一個腳本去 enforce 這個規定。
我舉 ctext 的例子也是想說明他們也等同於在人工維護一個適用於他們使用場景的標準化表。
支持。 特別是屬於CJK Compatibility Ideograph的字符大部分字形重複,弄 (U+F943) 就是其中之一。
Unicode有重複編碼的問題,有些還是很常見的字。
參見 https://ctext.org/faq/normalization/zh
按類似的方法標準化?