漢字標準化？ - Githubissues

only3km / ciklinbekin

電子化平話字音表｡戚林八音校注､ Dictionary of the Foochow Dialect｡校對中, 尚未完善, 請謹慎取用｡

https://only3km.github.io/ciklinbekin

MIT License

25 stars 8 forks source link

Open ztl8702 opened 6 years ago

ztl8702 commented 6 years ago

Unicode有重複編碼的問題，有些還是很常見的字。

按類似的方法標準化？

only3km commented 6 years ago

從單純的錄入的角度出發，一些字雖然重複編碼，但已存在字形差異，不建議直接籠統的標準化。例如：爲 (U+7232) vs 為 (U+70BA)。原文用哪個字形就選用符合的那個字錄入比較好。在進一步使用的場景下，再擴展或遵從特定標準進行篩選，例如：Rime碼表建議「爲」和「為」兼收。

ztl8702 commented 6 years ago

我指的是基本上字形無差異的重複編碼。比如：弄 U+5F04 (Glyphwiki) 和弄 U+F943 (Glyphwiki)

https://ctext.org/faq/normalization/zh 列出的很多是這種類型的重複編碼。

ztl8702 commented 6 years ago

兩對在 Unihan Database 裏面都被標爲（互爲） kZVariant。不過從實際來看兩對的差異程度並不相同。這樣變相而言，意味着我們需要根據實際使用場景定製一個標準化表。

比如規定：“對DFD，保留爲 (U+7232) 、為 (U+70BA)對立，合併弄 (U+5F04) 、弄 (U+F943)”。然後用一個腳本去 enforce 這個規定。

我舉 ctext 的例子也是想說明他們也等同於在人工維護一個適用於他們使用場景的標準化表。

only3km commented 6 years ago

支持。特別是屬於CJK Compatibility Ideograph的字符大部分字形重複，弄 (U+F943) 就是其中之一。