only3km / ciklinbekin

電子化平話字音表。 戚林八音校注、 Dictionary of the Foochow Dialect。 校對中, 尚未完善, 請謹慎取用。
https://only3km.github.io/ciklinbekin
MIT License
25 stars 8 forks source link

DFD: 處理同Unicode但字形不同的情況 #5

Open ztl8702 opened 6 years ago

ztl8702 commented 6 years ago

image

https://github.com/only3km/ciklinbekin/blob/4d7628f5e839a22f60f82ce5aab50cccc5a76ed8/DFD.tsv#L464-L466

可否改爲:

令   ling7
⿱⿵𠆢一龴   ling5   #=v
令   liang7  #=v

?

ztl8702 commented 6 years ago

問題是不知道用戶電腦字體顯示的是那一種。我是這樣: image

only3km commented 6 years ago

存在U+4EE4“令”U+F9A8“令“两个字。U+F9A8“令“是一个CJK Compatibility Ideograph,同U+4EE4“令”在字形上并无差异。而且是因韩文的标准而设,中文应尽量避免使用。实际上常见的字体,同一个字体内这两个字形是一样的,大体来说日韩用dfd截图的第一个字形,中文用第二个字形。 所以录入的时候没有把U+F9A8“令“当作不同的字形收进来。 如果为了还原文本,可以考虑使用U+F9A8“令“,或者使用两个U+4EE4“令”,并且为两个字设定不同的字体?

ztl8702 commented 6 years ago

U+F9A8“令“是一个CJK Compatibility Ideograph,同U+4EE4“令”在字形上并无差异。

不過 Unicode Standard 給出的圖片卻不一樣?

U+F9A8 image U+4EE4 image


我比較支持同時使用 U+F9A8“令“ 和 U+4EE4“令”,能分則不合。

顯示方面,CSS 可用 unicode-range 來確保兩者字形不同。其他顯示方式(如 LaTeX,我在考慮要不要做)也有相應的處理方法。只要原始數據能保持兩者分開。

使用两个U+4EE4“令”,并且为两个字设定不同的字体

則會將顯示層面的考慮混入到了原始數據中,不太好。


不過另一個問題是源文件最好也用\u4ee4\uf9a8代替(或者並排),以免以後編輯的時候一不小心把數據破壞了。

only3km commented 6 years ago

這裡Unicode Standard圖片只是給出了一個例子。
實際上U+4EE4“令”包含不同標準下的多種字形。 直接將U+4EE4“令”理解為image一個字形,恐怕不妥。