CanCLID / rime-cantonese-upstream

rime-cantonese 上游詞表倉庫
Creative Commons Attribution 4.0 International
27 stars 9 forks source link

修正 養精蓄鋭 → 將 essay 入面有嘅詞彙補充入碼表 #31

Open konzertnr9 opened 1 year ago

konzertnr9 commented 1 year ago

應為 joeng5 zing1 cuk1 jeoi6

laubonghaudoi commented 1 year ago

呢個問題嘅原因係碼表入面冇呢個詞而essay入面有,所以一個更通用嘅修復係將essay入面有但係碼表冇嘅詞都加入嚟。我會開始呢項工作。

laubonghaudoi commented 1 year ago

missed.txt 呢個係我抽取出嚟嘅,喺 essay-cantonese.txt 入面有但係碼表入面冇嘅詞語。跟住落嚟要做嘅係:

  1. 將所有詞分類,抽取出其中嘅「常用粵語詞」
  2. 將抽出嘅詞再分類,確定應該放入 dict 定係 phrase_fragment 定係其他
  3. 加粵拼
  4. 檢查用字係唔係都係 OpenCC 用字
  5. 加入上游詞表
hfhchan commented 6 months ago

「養精蓄銳,joeng5 zeng1 cuk1 jeoi6」有喎。 不過 downstream 個 essay 入面好多嘢係 upstream 冇,其實好多都係錯嘅,好似早排先 del 咗「張景軒」...