rime / rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案
https://jyutping.net/
Creative Commons Attribution 4.0 International
543 stars 62 forks source link

關於合併詞庫嘅問題 #15

Closed laubonghaudoi closed 4 years ago

laubonghaudoi commented 5 years ago

合併詞庫

經過各位嘅努力而家呢個倉庫已經基本成型了。不過我覺得仲有一個問題需要解決,就係將https://github.com/rime/rime-jyutping 入邊嘅詞庫都加埋入去。目前rime-jyutping入邊有15794個帶拼音(都冇聲調)或者冇拼音嘅詞條,而https://github.com/sgalal/rime-cantonese/issues/10 入邊提到嘅jyut6ping3.vocabulary.dict.yaml都有9萬幾條冇帶拼音嘅詞條。我嘅提議將呢啲詞條全部轉成唔帶拼音嘅詞條,加入我哋嘅碼表入邊。

爲咗方便管理,我提議將而家所有有拼音(都有埋聲調)嘅詞條都放落去jyut6ping3.dict.yaml度,然後將以上冇拼音嘅詞條都放落jyut6ping3.phrase.dict.yaml。唔知各位意見如何。

詞頻

另外關於詞頻嘅問題,經過測試我確認咗,我哋碼表嘅詞條如果要排到八股文自帶嘅官話詞條前面,就需要喺後面加一個大過佢詞頻嘅整數。例如話喺essay.txt呢度可以睇到,「宜家」嘅詞頻喺1790,所以如果想喺打/ji gaa/嗰陣排第一位嘅詞喺「而家」而唔係「宜家」嘅話,就應該喺我哋碼表嘅「而家」詞條後面加一個大於1790嘅數字。目前碼表入邊嘅詞彙基本上冇詞頻,所以經常出現官話詞彙排喺粵語詞彙前面嘅情況,呢個問題我哋可能要另外專門討論,點樣修正詞頻。

sgalal commented 5 years ago

如果加入冇拼音嘅詞條,係咪會同有拼音嘅詞條引起唔兼容嘅問題

laubonghaudoi commented 5 years ago

如果加入冇拼音嘅詞條,係咪會同有拼音嘅詞條引起唔兼容嘅問題

唔會,因爲目前rime-jyutping嘅碼表就係混雜咗有拼音同無拼音嘅詞條,所以可以並存。

leimaau commented 5 years ago

我覺得可以加冇粵拼嘅詞落去,只要注意將有粵拼、冇粵拼、八股文三者詞彙去重就得,仲要測試個9萬詞會唔會導致部署嘅時候會變慢,我有時自己加啲詞多咗部署就會變慢。

另一個就係上次issue我發現個五份資料唔少字都未收錄到單字音表中,例如個「腬」字,我可能要篩查嗰啲字出來加落去至得,可能要花啲時間。

laubonghaudoi commented 5 years ago

,仲要測試個9萬詞會唔會導致部署嘅時候會變慢,我有時自己加啲詞多咗部署就會變慢。

好嘅,我來負責搞合併詞庫,你來搞字音。

仲有一個問題想問下,就係我哋個方案名使唔使精簡一下。因爲我哋以後可能會將呢個配方作爲粵拼嘅標配方案,所以而家嘅「粵拼(聲調版)」呢個名使唔使改成「粵拼」?IPA版就保持原樣。

sgalal commented 5 years ago

所以而家嘅「粵拼(聲調版)」呢個名使唔使改成「粵拼」?IPA版就保持原樣。

我覺得好

leimaau commented 5 years ago

所以而家嘅「粵拼(聲調版)」呢個名使唔使改成「粵拼」?IPA版就保持原樣。

我亦覺得好,同時README同上頭嘅標註可能都要統一。

laubonghaudoi commented 5 years ago

啱啱嘅更新https://github.com/rime/rime-cantonese/commit/6b2a5a285e701d20595740f6c066a0ac030b185a 已經基本上將詞庫問題解決,剩低嘅就係修改詞頻嘅問題了,呢個以後另外再開issue討論。

而關於改名嘅問題,我覺得需要協調一下。如果本聲調版方案改成「粵拼」,IPA版維持「粵拼(IPA版)」,噉無聲調版嘅rime-jyutping點算?因爲佢入邊個碼表嘅名都叫「粵拼」,噉樣會導致命名重複。

我諗咗一下,乾脆將而家嘅兩個方案分別命名為「粵語拼音」同「粵語拼音(IPA版)」,rime-jyutping入邊嘅就保留「粵拼」原狀。噉樣得唔得?

仲有就係,我想整理一下個碼表作者嘅貢獻名單,而家上面係:

    - 佛振 <chen.sst@gmail.com>
    - sgal <1727246457@qq.com>
    - LeiMaau <leimaau@qq.com>
    - 劉邦後代 <laubonghaudoi@icloud.com>

呢個寫法有無問題?@leimaau你嘅名使唔使寫漢字?@sgalal你嘅名係寫sgal定係sgalal?以及統一埋.dict.yaml入邊嘅寫法,我仲要將@ziloeng嘅名加埋上去。

laubonghaudoi commented 4 years ago

README同方案入邊嘅貢獻者名單、文字格式等問題都已經修復完畢。根據我之前同@chaaklau嘅討論,跟住落來嘅計劃有以下係噉。

本碼表同八股文嘅關係

我哋而家仲係用緊八股文嘅自帶詞庫rime-essay,用呢個詞庫的確幫我哋慳咗好多精力,但係都有兩個副作用:

  1. 八股文入邊有好多粵語入邊無嘅官話詞彙。雖然多收詞唔係壞事,但係加埋呢啲詞會有個問題,就係打字嗰陣啲官話詞可能會排到喺粵語詞前面,從而降低輸入速度影響打字體驗。
  2. 要解決上面呢個問題就要修改我哋碼表入邊嘅詞頻,使粵語詞嘅詞頻高過八股文入邊嘅詞頻,就好似我上面講嘅將「而家」排到「宜家」前面噉。而噉樣做就要先參照八股文入邊嘅詞頻,然後再根據嗰個詞頻來設置我哋碼表嘅詞頻,噉樣會好麻煩,冇得一致噉協調字頻詞頻。

所以長遠來睇要一勞永逸噉解決問題,就需要擺脫對八股文嘅依賴,做出我哋自己完整嘅碼表。而目前粵語亦都有足夠嘅語料來確定詞彙嘅出現頻率,所以我哋完全可以好似八股文噉統計各個字詞嘅頻率然後放入碼表度。擇言有個表可以做參考https://docs.google.com/spreadsheets/d/1ArxEFo46PTrDyDDhWyu3wB0epxqTyd8WBaprnwTEPm4/edit?usp=sharing

下一步計劃

目前@leimaau喺度做緊字音補全,即係之前@sgalal嘅算法去除簡體字嗰陣將部分正體字當成簡體字誤刪嘅問題。另一方面@chaaklau準備將粵典入邊嘅5萬幾條數據(全部都有標粵拼)都加埋入我哋嘅碼表。

但係再下一步,根據語料庫確定每隻字同詞嘅頻率,具體點實現仲未確定,歡迎各位畀下思路。

sgalal commented 4 years ago

擇言有個表可以做參考https://docs.google.com/spreadsheets/d/1ArxEFo46PTrDyDDhWyu3wB0epxqTyd8WBaprnwTEPm4/edit?usp=sharing

呢個表係邊度來嘅,可唔可以直接使用?

laubonghaudoi commented 4 years ago

呢個表係邊度來嘅,可唔可以直接使用?

呢個表係Scott Mckennie做嘅表,佢嘅facebook頁面喺呢度https://www.facebook.com/scott.mckennie

laubonghaudoi commented 4 years ago

我啱啱徵得Scott嘅同意,可以用嗰個表,佢仲畀咗另外一個表畀我http://cantoneseplus.com/ Scott同我講話個表數據來源好雜,唔知呢個表可唔可以同其他數據結合埋一齊用?

sgalal commented 4 years ago

確實來源好雜,好多政治詞彙 😂

laubonghaudoi commented 4 years ago

@sgalal 等你得閒個陣可唔可以幫我哋將http://cantoneseplus.com/# 入邊嘅數據爬落來放入個csv文件度?

噉樣嘅話,我哋就有下面呢幾份資料:

  1. 粵典細數據嘅字頻
  2. 粵典細數據嘅詞頻
  3. Scott嘅
  4. Cantonese Plus
  5. PyCantonese

屆時我哋再開會討論應該點樣利用呢啲數據來下一步更新啲字頻同詞頻。

sgalal commented 4 years ago

好,我可以試下

laubonghaudoi commented 4 years ago

我啱啱https://github.com/rime/rime-cantonese/commit/9200fdfd34351c22670bc5fe923d63e0898b2916 將粵典細數據同Scott嘅表入邊嘅數據做成咗tsv文件,粵典嘅charcount入邊有好多非漢字字頭,到時要清除嗮先得。