ButTaiwan / iansui

芫荽,基於 Klee One 改造的學習用台灣繁體字型
SIL Open Font License 1.1
1.47k stars 53 forks source link

缺字補字敲碗串 #3

Closed ButTaiwan closed 2 years ago

ButTaiwan commented 2 years ago

因為人力的問題,芫荽盡可能補了我自己收集的繁體中文常用字,但終究是做不了完整的 Big5 之類的範圍。 所以缺字是難免,尤其是學術領域、古文、歷史名詞、人名等等。

但我可能收集的常用字有所遺漏,也知道自己的名字缺字很難過.... 所以若有需要的缺字,請留言在此串,謝謝。

原則上我會判斷優先製作我認識的字,並斟酌製作我不認識,但看起來像是人名可能常用的字XD

(敲碗的字數還請高抬貴手....)

ewjy commented 2 years ago

不知道羅馬字的部分能不能來敲碗一下 客語白話字的ṳ (U+1E73) 及其標調變體ṳ̂ṳ̀ṳ́ṳ̍在芫荽和源X系列當中都缺,能否考慮製作呢?

ButTaiwan commented 2 years ago

不知道羅馬字的部分能不能來敲碗一下 客語白話字的ṳ (U+1E73) 及其標調變體ṳ̂ṳ̀ṳ́ṳ̍在芫荽和源X系列當中都缺,能否考慮製作呢?

我能查到的客語白話字文獻不夠多,除了 ṳ 以外還有哪些母音是會用到的呢 ? 例如 m、n 有可能作為音節裡的母音使用嗎? 陽去的圈調號實際上有在用嗎? 會放在 m、n、ṳ 上嗎?

實際上在台灣客語族群內使用情況多嗎? 還是幾乎都走向台灣客家語拼音方案了?

-- 1/22 14pm

已先補充這些字母。 image

IanHo79 commented 2 years ago

我在擅打這篇貼文時,手邊的系統和軟體環境是 macOS 10.15.7 + LibreOffice Calc 7.3.0.2 + UnicodeChecker.app + Iansui0.91-Regular.ttf。 以下是我「奢望」"Iansui"能夠增補收錄的中文漢字:

以下選字來源,有收錄於中華民國教育部國字標準字體筆順學習網: https://stroke-order.learningweb.moe.edu.tw/ 「抆」「搯」「摜」「摽」「擫」「迍」「逄」「遝」「邅」 「仉」「偁」「僇」「儸」「犰」「狳」「狺」「阢」「隉」「鄯」「鄘」 「汊」「澇」「嶗」「澮」「淝」「灕」「忮」「怍」「惄」「屨」「羼」 「疢」「瘝」「眊」「瞷」「秭」「嵇」「耷」「聃」「衹」「褳」「哧」「喁」「噠」 「笫」「篣」「籜」「籩」「蚜」「蜡」「螅」「螗」「蟪」「蠼」「蟊」 「趵」「趿」「跽」「踦」「踽」「埳」「埸」「堞」「墦」「媢」「勖」「媯」「嫄」 「衕」「衚」「閎」「闓」「絻」「綃」「繯」「芰」「蒺」「蓧」「薌」「蕢」「蘄」 「觫」「觿」「醅」「醰」「鋃」「鏇」「鏹」「氆」「氌」 「卣」「枒」「巹」「窆」「帨」「敉」「牷」「眚」「匭」「堇」「殛」 「殽」「祼」「䠷」「尟」「艉」「趑」「虢」「輞」「魨」「謏」「骾」 「隳」「麰」「黿」「矱」「雝」「鬈」「黟」「礨」「鶘」「饘」「臞」

以下選字來源,有收錄於中華民國行政院國家發展委員會全字庫「第一字面」: https://www.cns11643.gov.tw/ 「刖」「劂」「沔」「涊」「湩」「澦」「濩」「迕」「迨」「逭」 「邶」「郃」「郾」「鄴」「坶」「塽」「栘」「梂」「偭」「偯」「僎」 「笮」「箄」「紱」「絰」「緙」「縯」「縿」「詖」「誶」「譆」 「覜」「頜」「跦」「踡」「蹚」「榣」「欐」「櫫」「杗」 「瑭」「瓖」「敻」「觼」 「芣」「姅」「帟」「晅」「敔」「脤」「裯」「雊」「酴」「輥」 「擭」「瘺」「禨」「穋」「歜」「毚」「燸」「韹」「騵」

以下選字來源,為讓已收錄的常用或次常用字可以「湊成詞彙」或對照: 「饔」飧、俳「佪」、錚「鏦」、「漭」沆、「腷」臆、垠「堮」、埤「堄」、 「閈」閎、「襝」衽、壙「埌」、「梐」梱、「蟿」螽、輜「軿」、弋「綈」、 「捭」闔、「卐」卍、「楶」梲、「襜」褕、衹「衼」。

以下選字來源,為動物用字: 「鼩」「鼱」「獢」「獴」、{「㹴」犬(鬥牛㹴/牛頭㹴)(本貼文新加的字)}。

以下選字來源,為效果音用字: 「咷」「嗖」

以下選字來源,為中華民國教育部國語一字多音審訂表PDF民國101+109年版: 「踧」「踖」「凇」「跗」

以下選字來源,為漢字部件: 「丩」「丮」「乇」「冘」「𠫓」 「丂」「丌」「业」「㐄」「㐆」「𠂆」「𠂇」「𠂔」「㡀」「巜」 「歺」「犮」「𤣩」「疌」「𦍌」「𦘒」「隺」「巟」「臿」「豖」 「㠯」「𠕁」「𠕋」「𠘧」「𢇍」「𣎳」「𣥂」「𦣞」「𧰨」, 「冎」(參考全字庫正楷體)。

以上的選字有另外整理成試算表的形式呈現: ROCtwMoePolyPhone2012_Unofficial_Third-Party_ReProduction_LOv7212_v110-10-17.ods(或更新的版本) https://sites.google.com/site/ianho7979/roctwmoepolyphone_unofficial_third-party_reproduction

題外話,對我來說Iansui這款字形檔的驚喜點是預設收錄了元素週期表上的用字。

IanHo79 commented 2 years ago

補充,若開發者時間允許製作方言用字的話,這裡推薦參考列表網址, 中華民國行政院國發會全字庫收錄的教育部閩南語、客語用字: CNS:11-7321~11-733D https://www.cns11643.gov.tw/search.jsp?ID=5&cPage=11&SN=7321&SN2=733D 有部分用字的碼位還在unicode私人造字區就是了。

ButTaiwan commented 2 years ago

先說明。這個表裡每個字要做完大概需要好幾個月,多數應該都不會列入計畫。

另外:

以下選字來源,有收錄於中華民國行政院國家發展委員會全字庫「第一字面」:

全字庫的第一字面5401字的收錄原則不明,除了教育部甲表的4808字之外,又多出近600字。其中甚至有幾個字不存在於教育部幾本國語辭典裡。是故收在全字庫第一字典亦其實無法認定其常用。

中華民國行政院國發會全字庫收錄的教育部閩南語、客語用字:

同樣,當年全字庫緊急收這幾個方言用字時,應該也是在進行整理之前先收了再說。 芫荽已經收錄教育部《臺灣閩南語常用詞詞典》《臺灣客家語常用詞詞典》內所有推薦用字。

總之,全字庫(a.k.a. CNS11643)當年是為了跟日本 JIS78 競爭而急就章而推出的產物,收字標準其實很混亂。

ewjy commented 2 years ago

我能查到的客語白話字文獻不夠多,除了 ṳ 以外還有哪些母音是會用到的呢 ? 例如 m、n 有可能作為音節裡的母音使用嗎? 陽去的圈調號實際上有在用嗎? 會放在 m、n、ṳ 上嗎?

實際上在台灣客語族群內使用情況多嗎? 還是幾乎都走向台灣客家語拼音方案了?

感謝幫忙補充。 我不是客家人,目前四縣腔客語的掌握程度也不算很好,所以只能簡單地回答您一下。 基本母音而言,四縣客語有aiueoṳ,即只有一個帶有附加符號的母音ṳ(客拼方案為ii)需作特別處理。音節輔音有m、n(海陸腔客語)、ng(標在n上,所以和前面一樣處理即可),應該跟台語兩大羅馬字方案的標記法一樣。 同上,陽去貌似只用於海陸腔白話字,我自己在四縣腔白話字資料中還沒看過這個調號。客語白話字系統貌似仍以基督教系統人士為最大宗使用者,且只涵蓋到四縣和海陸兩個最大宗腔調,部分大學也有在使用這套。至於確切的使用比例,我所了解的情況還不足以回答。

IanHo79 commented 2 years ago

先說明。這個表裡每個字要做完大概需要好幾個月,多數應該都不會列入計畫。

另外:

以下選字來源,有收錄於中華民國行政院國家發展委員會全字庫「第一字面」:

全字庫的第一字面5401字的收錄原則不明,除了教育部甲表的4808字之外,又多出近600字。其中甚至有幾個字不存在於教育部幾本國語辭典裡。是故收在全字庫第一字典亦其實無法認定其常用。

中華民國行政院國發會全字庫收錄的教育部閩南語、客語用字:

同樣,當年全字庫緊急收這幾個方言用字時,應該也是在進行整理之前先收了再說。 芫荽已經收錄教育部《臺灣閩南語常用詞詞典》《臺灣客家語常用詞詞典》內所有推薦用字。

總之,全字庫(a.k.a. CNS11643)當年是為了跟日本 JIS78 競爭而急就章而推出的產物,收字標準其實很混亂。

那我修飾一下選字來源:

以下選字來源,有出現於中華民國教育部國語一字多音審訂表民國101+109年版PDF: 「踧」「踖」「凇」「跗」「刖」「櫫」「輥」

以下選字來源,有出現於國語文教育叢書四十三 國小學童常用字詞調查報告書民國九十一年三月 二版: https://language.moe.gov.tw/001/Upload/files/SITE_CONTENT/M0001/PRIMARY/SHINDEX.HTM https://pair.nknu.edu.tw/literacy/UploadFile/News/201712291806/教育部字庫5021字.pdf 「頜」「櫫」「騵」

以下選字來源,有出現於教育部國語辭典簡編本: 「迕」「逭」「坶」「蹚」「敻」「禨」

以下選字來源,有出現於教育部國語辭典修訂本: 「劂」「沔」「涊」「湩」「澦」 「濩」「迨」「郃」「郾」「鄴」「塽」「栘」「偭」「偯」「僎」 「笮」「箄」「紱」「緙」「絰」「縿」「詖」「誶」「譆」「覜」 「跦」「踡」「榣」「欐」「杗」「瑭」「瓖」「芣」「帟」「晅」 「敔」「脤」「裯」「雊」「酴」「擭」「瘺」「穋」「歜」「毚」

調整過後全字庫「第一字面」還剩下這七個字: 「邶」「梂」「縯」「觼」「姅」「燸」「韹」。 我得好好想想能不能幫這七個字找到收錄的好理由。

Ayaginu-Sue commented 2 years ago

我曾經為霞鶩文楷補全過拉丁文延伸-A 區字符,有興趣的話可以把我補全的部分貼到這邊。

ButTaiwan commented 2 years ago

我曾經為霞鶩文楷補全過拉丁文延伸-A 區字符,有興趣的話可以把我補全的部分貼到這邊。

謝謝。目前還好,比起單純補滿Unicode block,我比較想去補實際上會用到的字符,這反而有些是沒有單獨Unicode的。 (例如 v0.920 補的那些漢語拼音、客語白話字、馬祖福州話拼音那些都有用到部分需要組合的字符。)

Ayaginu-Sue commented 2 years ago

因為我平時有研究語言學方面的東西,經常會用到拉丁文延伸-A 等地方的字符,所以我認為這也許也可以被稱為「學術領域」的內容。如果有需要的話,我也可以自行補字後發送給你或者提交 PR。

ButTaiwan commented 2 years ago

因為我平時有研究語言學方面的東西,經常會用到拉丁文延伸-A 等地方的字符,所以我認為這也許也可以被稱為「學術領域」的內容。如果有需要的話,我也可以自行補字後發送給你或者提交 PR。

我得想想怎麼 merge 比較好。你的工作環境是什麼軟體? 二次曲線還是三次曲線? (我這裡是 Glyphs 的三次曲線)

Ayaginu-Sue commented 2 years ago

我得想想怎麼 merge 比較好。你的工作環境是什麼軟體? 二次曲線還是三次曲線? (我這裡是 Glyphs 的三次曲線)

我用的是 11.5 和 13 版本的 Windows 端 FontCreator。因為並非專業人士,僅僅是愛好者,所以不是很瞭解 TrueType 曲線的分別,去看了看匯出設定似乎是二次曲線。

ButTaiwan commented 2 years ago

我想了一下,merge 拉丁文字比想像還要更複雜。像 kerning 資訊要怎麼帶進來之類的。例如照理說 Ť 要繼承 T 的所有 kerning 設定,後面出現 a 時距離應該調整。

用 merge 的反而處理這些問題會更麻煩。

Ayaginu-Sue commented 2 years ago

我想了一下,merge 拉丁文字比想像還要更複雜。像 kerning 資訊要怎麼帶進來之類的。例如照理說 Ť 要繼承 T 的所有 kerning 設定,後面出現 a 時距離應該調整。

用 merge 的反而處理這些問題會更麻煩。

我也可以通過郵件之類的方式把字型檔發送給你,不過這樣的話一些麻煩的東西就只能都交給你了。

我個人的話,因為只是愛好者(一些地方需要用到它),所以對於製作字型瞭解的並不太多,很多地方一知半解,只會一些簡單的東西,可能幫不上忙 XD

IanHo79 commented 2 years ago

以下是我個人累積到目前為止的選字來源總整理,或許參考: 中華民國教育部國語注音符號手冊 (手冊內有簡單帶過四個舊版的符號字圖。另外可以發現頁面的最下方,有注音符號向量圖的下載連結,遺憾的是沒有包含到四個舊版符號) https://language.moe.gov.tw/001/Upload/files/site_content/M0001/juyin/index.html 中華民國教育部單位詞、符號詞 https://dict.variants.moe.edu.tw/variants/rbt/unit_term_tiles.rbt?pageId=2982189 https://dict.variants.moe.edu.tw/variants/rbt/symbol_term_tiles.rbt?pageId=2982193 中華民國教育部兩百一十四個部首 https://dict.variants.moe.edu.tw/variants/rbt/page_content.rbt?pageId=2981942 中華民國教育部國語小字典 https://dict.mini.moe.edu.tw/ 中華民國教育部4808個常用字PDF https://language.moe.gov.tw/001/Upload/Files/site_content/download/mandr/教育部4808個常用字說明.pdf 中華民國教育部國字標準字體筆順學習網 https://stroke-order.learningweb.moe.edu.tw/ 中華民國教育部國語一字多音審訂表民國101+109年版PDF https://language.moe.gov.tw/files/people_files/初稿.pdf https://class.tn.edu.tw/modules/tad_web/files.php?WebID=11184 中華民國教育部 九十一年三月 國語文教育叢書四十三 國小學童常用字詞調查報告書 二版 https://language.moe.gov.tw/001/Upload/files/SITE_CONTENT/M0001/PRIMARY/SHINDEX.HTM https://pair.nknu.edu.tw/literacy/UploadFile/News/201712291806/教育部字庫5021字.pdf 中華民國行政院國家發展委員會全字庫「第一字面」 https://data.gov.tw/dataset/5961 Open_Data.zip/CNS_source.txt 中華民國行政院國家發展委員會全字庫五百一十七個部件 http://www.cns11643.gov.tw/search.jsp?ID=14&ID2=18 中華民國行政院國家發展委員會全字庫(舊版36個/新版35個)筆順序/筆畫 http://www.cns11643.gov.tw/search.jsp?ID=14&ID2=17 中華民國教育部《國字標準字體教師手冊》國字筆畫名稱表、國字筆畫併類表 https://language.moe.gov.tw/001/Upload/files/SITE_CONTENT/M0001/STD/fu.htm http://dict2.variants.moe.edu.tw/fulu/fu13/fubiau/bihua.htm http://dict.variants.moe.edu.tw/variants/rbt/page_content3.rbt?pageId=2982182 中華民國教育部全形標點符號直書+橫書兩種(直書和橫書不共用碼位) https://language.moe.gov.tw/001/upload/files/site_content/m0001/hau/haushou.htm 元素週期表 https://dict.revised.moe.edu.tw/search.jsp?md=1&word=原子序&qMd=0&qCol=16&size=100

以上的累積數量,我自己大概估算,不重複的字元,大約有七千個字元/碼位上下些許, 然後有部分會是在unicode的私人造字區,例如全字庫部分的漢字部件。

目前我自己查閱資料遭遇到的瓶頸: 我手邊的環境目前是 macOS 10.15.7 + Libreoffice v7.3, 中華民國教育部 九十一年三月 國語文教育叢書四十三 國小學童常用字詞調查報告書 二版 https://language.moe.gov.tw/001/Upload/files/SITE_CONTENT/M0001/PRIMARY/SHINDEX.HTM https://pair.nknu.edu.tw/literacy/UploadFile/News/201712291806/教育部字庫5021字.pdf 我要交叉比對這兩份資料的內容,需要確認收字內容是否為完全一致的。 例如,教育部字庫5021字.pdf 內,編號4529,我就無法在 教育部異體字字典、全字庫 找到對應的字。 我在第一個教育部網址下載了 SHREST1.DBF(檔案年份為西元2002年)、mdfont.zip/diction.tte(檔案年份為西元2000年), LO Calc可以開啟 SHREST1.DBF(big5模式),但是會有幾十個私人造字區碼位的缺漏字,所以推論應該需要搭配 diction.tte ? 目前現有的 FontForge 2020-11-07 mac版「無法打開」 diction.tte (但我之前有使用 FontForge 打開中研院漢字構形資料庫的tte,並轉成ttf的經驗), 目前還在找尋可以順利打開查閱內容並轉檔diction.tte的解決方案(圖形使用者介面優先)。

個人觀點抒發兼抱怨文: 我瀏覽了一輪新版六千多字的「國字標準字體筆順學習網」的選字, 以及5021字的「國小學童常用字詞調查報告書」的選字, 依據我個人人生的用字經驗,我也會認為其中有部分選字屬於罕用字, 將近二十年前的「國小學童常用字詞調查報告書」出現罕用字也就算了。 印象所及在前年(2020)更新過的「國字標準字體筆順學習網」裡頭, 居然出現了看起來像是查閱古籍時才會出現的罕用字, 範例字「纛」,我個人是不相信,除了查閱古籍之時,現代臺灣社會是能有多常用? 我不曉得參與版本更新會議的那些老學究,腦袋瓜裡在想什麼?

IanHo79 commented 2 years ago

選字來源總整理增補: 臺灣閩南語注音符號(民間俗稱)/方音符號系統(教育部) (還要包含到聲調符號) https://zh.wikipedia.org/zh-tw/臺灣方音符號

ButTaiwan commented 2 years ago

@IanHo79 這些內容跟本專案補字無關,我就不回應了。

@Ayaginu-Sue 目前我傾向先不補拉丁-A這些字,除非找到更好的理由芫荽有需要收這些字。 目前芫荽的定位是國小國中學習上會接觸到的漢字,以及生活中瀏覽一般網站會碰到的字。 (所以有在計畫收部分KK音標會用到的字母。)

bluebat commented 2 years ago

僅供參考: 崐 姹 媖 䠷 彣 玪 粆 蘐 瑈 孆 蒖 堦 酜 齳 䬺 衁 㗼 哶 㧯 鑥 𩞦 𡜵 㜺 𡟓 鍫 撦 㾪 𢯩 㔊 䩃 𨆉 𤸫 𠠍 𩏠 鴴 筁 𩵚 𢓜 𤏸 烕 䫐 嘅 咗 啱 嘢 唞 諗 哋 𢱑 𠶜 啩 喐 鰂 嗮 嗰 瞓 澌 尐 伆 睼 獳 眲 逳 揸 嘥 啫 餸 譅

ButTaiwan commented 2 years ago

僅供參考: 崐 姹 媖 䠷 彣 玪 粆 蘐 瑈 孆 蒖 堦 酜 齳 䬺 衁 㗼 哶 㧯 鑥 𩞦 𡜵 㜺 𡟓 鍫 撦 㾪 𢯩 㔊 䩃 𨆉 𤸫 𠠍 𩏠 鴴 筁 𩵚 𢓜 𤏸 烕 䫐 嘅 咗 啱 嘢 唞 諗 哋 𢱑 𠶜 啩 喐 鰂 嗮 嗰 瞓 澌 尐 伆 睼 獳 眲 逳 揸 嘥 啫 餸 譅

這些字大多不在 Unicode 基本平面,主要是粵語需求?

IanHo79 commented 2 years ago

那我再修飾一下前一篇貼文的論述,以下是我個人奢望芫荽能夠收錄的字元和符號: 中華民國教育部「符號詞」、「單位詞」: 「𩐃」「𢌽」「𦬢」 「𠒲」「𠒘」「𠒙」「𠒐」「𠓈」「𠓏」「𠓎」「𠒭」 「𥪳」「𥩘」「𥩻」「竔」「䇆」「䇉」「𥪕」 「𡪸」「𡩛」「𤲾」「粎」「𥸯」 參考資料: https://dict.variants.moe.edu.tw/variants/rbt/symbol_term_tiles.rbt?pageId=2982193 https://dict.variants.moe.edu.tw/variants/rbt/unit_term_tiles.rbt?pageId=2982189

筆畫: 「㇐」「㇑」「㇒」「㇓」「㇔」「㇏」「㇀」「㇕」「𠃍」「㇖」「㇇」「㇗」「㇄」「㇘」「㇙」 「㇚」「㇃」「㇂」「㇁」「㇛」「㇝」「㇅」「㇍」「㇆」「㇈」「㇞」「㇟」「㇎」「㇠」「㇉」 「㇡」 參考資料: http://www.cns11643.gov.tw/search.jsp?ID=14&ID2=17

中華民國教育部全形標點符號直書+橫書兩種(直書和橫書不共用碼位),和各種括號: 正體中文「直書」和「橫書」的「全形」「標點符號」與「括號」: 「︔」「︓」「︖」「︕」「︴」「‧」「︗」「︘」 「﹏」「〖」「〗」 其它括號: 全形: 「〚」「〛」 大型: ⎰ ⎱

垂直: ⎴ ⏜ ⏞ ⏠ ⎶ ⎵ ⏝ ⏟ ⏡ 參考資料: https://language.moe.gov.tw/001/upload/files/site_content/m0001/hau/haushou.htm

ButTaiwan commented 2 years ago

「符號詞」、「單位詞」

既然來自異體字字典,這些字的實用性極低。 講白了次常用字表任何一個字都還比這些字有用。

筆畫

跟偏旁一樣,日常生活、網路文章中實用性不高。低優先性。

中華民國教育部全形標點符號直書+橫書兩種(直書和橫書不共用碼位)

直排碼位都是 Unicode 相容用的歷史垃圾,也不符合字型技術。不需要也不該使用。它們只有相容性用途。

tonyhuan commented 2 years ago

用此字體看了幾天小說,較常遇到的「噠」、「哧」上面已經有人回報,還有「攥」字還沒人回報。

IanHo79 commented 2 years ago

奢望能夠增補收錄的「聲音效果」用字: 「咷」「嗖」「哧」。 嚎「咷」 https://dict.revised.moe.edu.tw/dictView.jsp?ID=80830 「嗖」 https://dict.revised.moe.edu.tw/dictView.jsp?ID=10060 噗「哧」 https://dict.concised.moe.edu.tw/dictView.jsp?ID=3439 臺灣社會在地的網路流行文化,通常狀況是有些人的中文貼文留言會搭配使用英文字母去拼某些所謂的「效果音」,然後會藉口說,因為中文漢字「沒有」對應的效果音用字,只好使用英文字母去拼該效果音。然而我發現,只要花些心思去找,其實是可以找到不少設計給效果音用途的現成的中文漢字。說真的只是貼文者有沒有花費心思去挑選用字罷了。

ButTaiwan commented 2 years ago

Ver 0.930 先補上這95個漢字(台灣鄉鎮市村里等地名用字、立法委員與縣市長姓名用字、部分來自 issues 建議的補字、部分粵語用字):尐叾刖玎卣壳彣毐沄沔咗芼迕俋咷哋垵迨郃哧敉秭羗蚜趵逄𨳍匭唪啱埧崐敔淝硘脷𦰡嵇𢱑猬硦萁萡逭郾嗖塤嵵搲殛溱獇艉䠷鳯僎嘅嘢塽摜瑭蜡慤氂磘糌虢頜魨噠澦濓瘺磜𥕢朥螅𩶘獴䃟禨蹚𨶙餸鬈鯓櫫鏇礨騵鰂瓖蘞欍攥

由於補字時發現我很難逐一檢討每個字的必要性,此討論串關閉。另開新串。