rime / rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案
https://jyutping.net/
Creative Commons Attribution 4.0 International
539 stars 62 forks source link

[尋求幫助]我有四份詞典可以擴充我哋嘅碼表 #50

Closed leimaau closed 3 years ago

leimaau commented 4 years ago

我有四份詞典可以擴充我哋嘅碼表,因爲我哋時間、精力、能力和人手有限,冇得閒處理,希望有能力嘅朋友能夠提供幫助,四份詞典分別係:

1997年《实用广州话分类词典(简)》2.txt 1997年《广州话词典(简)》2.txt 2005年《地道广州话用语(简)》2.txt 2005年《A Dictionary Of Cantonese Slang》.txt

網盤:https://lanzous.com/b00tiew9i 密碼: 8qxx

要求:

一個人可以認領一份或者多份,但要寫低你認領邊一份,唔好衝突。完成後會將你嘅貢獻寫入我哋嘅碼表中,多謝你嘅幫助。

tanxpyox commented 4 years ago

2005年《A Dictionary Of Cantonese Slang》做住一半先

係咪好似噉?(遲啲轉埋粵拼)

leimaau commented 4 years ago

@tanxpyox 係,單字同詞彙記得分開,重有數字英文都單獨分出嚟。

laubonghaudoi commented 4 years ago

2005年《A Dictionary Of Cantonese Slang》做住一半先

係咪好似噉?(遲啲轉埋粵拼)

我發覺入邊有啲拼音係耶魯同粵拼撈埋一齊,要記得分開。

仲有剩低三份數據係簡體字版本嘅,到時需要統一轉換返繁體字。不過呢一步可以留到後面,先將啲字詞執好再統一轉換。

tanxpyox commented 4 years ago

image 有錯音使唔使改?

leimaau commented 4 years ago

錯音錯字都可以改

tanxpyox commented 4 years ago

https://gist.github.com/tanxpyox/27a0533616c27e9d0822fa9978cdbb99

4號搞掂

leimaau commented 4 years ago

2005年《A Dictionary Of Cantonese Slang》大部份已經處理好咗,但有啲帶英文嘅詞重未分出嚟,我改進下,包括一啲錯字錯音。

single.txt lettered.txt else.txt

leimaau commented 4 years ago

@tanxpyox 我將你整理好嘅數據放落碼表中嘞,主要改咗:jyut1 -> jyut6,lettered.yaml 有空格嘅加個「-」,例如「扁pat pat」變「扁pat-pat」,方便rime打字出嚟。祇放詞彙表同外文表,單字表唔放,留住對比修改。跟住碼表最屘加落,先唔去重、唔排序,等其他詞表都有人整完再嚟去重、排序。貢獻者名單加咗你嘅名同email,你睇下邊啲唔啱嘅話可以自己改。

laubonghaudoi commented 4 years ago

唔該幾位千祁唔好咁急將啲詞庫加落我哋個碼表住,我見啱嗰個https://github.com/rime/rime-cantonese/pull/51 直接將啲詞條加入個碼表度,噉會撈亂晒我哋原先啲數據,好彩已經閂咗。因爲嗰啲數據全部都未經過校對,我哋要成將啲漢字轉換成 OpenCC 標準,修正無效音節,然後先好將佢哋加入個碼表度。剩低嘅三份文件更加麻煩,因爲簡繁轉換嗰陣會出現好多問題,要先將佢哋轉換校正好晒,分開三個文件校驗確定冇問題之後,再加落去。

其實今次呢個 A Dictionary Of Cantonese Slang 嘅數據都唔應該咁急住加落去,不過既然已經加咗就算嘞,到時再一齊執。因爲今次數據嘅加入比較多,最好新開一個branch,喺入邊確定冇問題之後再merge入嚟。

既然而家最尾一份數據已經加咗入去碼表最尾,我哋要先確定好跟住落嚟啲步驟,費事撈亂:

  1. 將https://github.com/rime/rime-cantonese/commit/202dec1cbf884b0a07f0cfa84218a1b1d95ca913 最尾加入嘅數據先執正,確保漢字都係 OpenCC 字形,粵拼都係有效音節。
  2. 將剩低嘅 3 份文件,按照@leimaau 講嘅步驟處理好,但係唔好加落個碼表住,分別放喺 build branch上面就得,要確保漢字都係 OpenCC 字形仲有啲音節都係有效音節。
  3. 我嚟將呢四份文件融合,同現有嘅碼表對比然後去重重新排序。加落我哋個碼表入邊。
  4. 根據https://github.com/rime/rime-cantonese/issues/28 用保全後嘅碼表再做多次一個同音詞表,搵人去執正啲同音詞。
leimaau commented 4 years ago

係我嘅問題,我冇講清楚加落碼表嘅步驟,下次改進,融合四份文件就由 @laubonghaudoi 嚟負責。

laubonghaudoi commented 4 years ago

我已經將 @chaaklau 嘅嗰份CUHK詞表,加埋啱先@leimaau 加嘅A Dictionary Of Cantonese Slang 嘅詞彙部分,放到去 build branch 上面 https://github.com/rime/rime-cantonese/tree/build

所以我啱先嘅提交將今次加嘅數據暫時刪咗,等呢 5 份數據收齊並且清理完之後,再做統一嘅加入。

tanxpyox commented 4 years ago

@laubonghaudoi 如果搵到有錯噉我留言響度定係commit去 rime-cantonese@build 度?

laubonghaudoi commented 4 years ago

@laubonghaudoi 如果搵到有錯噉我留言響度定係commit去 rime-cantonese@build 度?

直接commit到build就得。而家首要解決個括號問題,入邊CUHK嗰兩個表嘅漢字仲有好多括號,麻煩你幫手按照@leimaau 嘅要求將啲有括號嘅詞條執好先,唔該晒!

leimaau commented 4 years ago

@tanxpyox @laubonghaudoi build 中係咪缺少一份《A Dictionary Of Cantonese Slang》執好嘅單字表,嗰份都有參考作用,可以加落去。單獨叫《A Dictionary Of Cantonese Slang——單字表.tsv》就得。

laubonghaudoi commented 4 years ago

@tanxpyox @laubonghaudoi build 中係咪缺少一份《A Dictionary Of Cantonese Slang》執好嘅單字表,嗰份都有參考作用,可以加落去。單獨叫《A Dictionary Of Cantonese Slang-單字表》就得。

嗰個表係我直接從你喺.dict.yaml最尾嘅詞條抽出嚟嘅,所以本身就冇單字。如果要單字嘅話噉又要重新提取多次先得。

leimaau commented 4 years ago

@tanxpyox @laubonghaudoi build 中係咪缺少一份《A Dictionary Of Cantonese Slang》執好嘅單字表,嗰份都有參考作用,可以加落去。單獨叫《A Dictionary Of Cantonese Slang-單字表》就得。

嗰個表係我直接從你喺.dict.yaml最尾嘅詞條抽出嚟嘅,所以本身就冇單字。如果要單字嘅話噉又要重新提取多次先得。

單字表重喺 https://gist.github.com/tanxpyox/27a0533616c27e9d0822fa9978cdbb99 中,冇加入過dict,都唔需要加,祇係攞嚟參考研究,copy過嚟單獨立個《A Dictionary Of Cantonese Slang——單字表.tsv》文件喺build就得。

laubonghaudoi commented 4 years ago

我啱先嘅提交https://github.com/rime/rime-cantonese/commit/057bdecdf6c53ace94ef968cfbb702993b434d0a 已經將 A Dictionary Of Cantonese Slang 同埋 CUHK 詞庫加咗落去。所以而家就剩低 3 份簡體字字典嘅詞庫未加。我睇咗下好似個詞庫好多字都係生僻字同唔常用嘅表達,所以我哋仲有冇必要加落去?

leimaau commented 4 years ago

既然冇人能夠執嗰三份文件,噉就關呢個issue嘞。

graphemecluster commented 3 years ago

得閒寫咗個 program,自動 parse 去要求嘅 format,係全自動,而且未進行繁簡轉換,亦都冇對過,唔知你哋有冇用: https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_1_normal.txt https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_2_normal.txt 個 program detect 到 total 612 行 error,但係唔係全部都係,因為詞彙字元數唔同發音嘅音數都會當係 error: https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_1_errors.txt https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_2_errors.txt

至於第三個 source 我淨係 delete 晒每一行 tab 後面嘅嘢,其他嘢完全冇郁過: https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_3_all.txt

附上嗰個程式(雖然並冇用): https://github.com/graphemecluster/rime-cantonese/blob/b970f96e92ff02e748c932f7ce78786f73f09bd8/source_1_2_parser.js

係咁多,跟住嗰啲步驟我完全唔識……

laubonghaudoi commented 3 years ago

@graphemecluster 唔該晒,我哋要另外再轉換埋繁簡再執埋用字先得。@ayaka14732 可唔可以得閒將呢兩份嘢轉成 opencc 字形?你知我呢邊跑唔到opencc,唔該晒!

graphemecluster commented 3 years ago

突然間記起無人整,終於都係我學識咗點整,雖然唔知係咪就咁就得

好奇點解 @laubonghaudoi 先生話「跑唔到 OpenCC」,唔係有部電腦就得㗎喇咩?

laubonghaudoi commented 3 years ago

@graphemecluster 而家係要將所有字形轉成opencc 標準字形,但係 opencc 默認冇從香港字形轉 opencc 字形嘅功能,要自己加 json 先得,我加唔到 json,一跑就有 bug

graphemecluster commented 3 years ago

唔好意思唔係好明,而家唔係簡體轉 OpenCC 繁體咩?

laubonghaudoi commented 3 years ago

@graphemecluster 都係,反正我用windows,你windows點跑 opencc?

graphemecluster commented 3 years ago

我只係去 https://github.com/BYVoid/OpenCC/wiki/Download 下載咗佢 prebuild 嗰個 zip,解壓縮完去「編輯環境變數」嘅 PATH 變數嗰度加返佢入面 bin folder 嘅路徑,之後就可以喺 cmd 或者 PowerShell 度用到(opencc -i input.txt -o output.txt -c s2t.json)。

laubonghaudoi commented 3 years ago

最近嘅幾次提交 https://github.com/rime/rime-cantonese/commit/a817a4a2474125765c9ee07ce117324e076264e3 https://github.com/rime/rime-cantonese/commit/79ab2b3e12a70535591dbb253375322364e1a518 https://github.com/rime/rime-cantonese/commit/6d2c00088eab04d8cde4fbb4c0d2049773ee76a6 已經將第三份資料都全部加晒入去,多謝晒各位嘅貢獻。我留意到新加嘅詞條入面仲有啲用字問題需要修正,例如個「著」字,不過呢啲之後再慢慢改,而家呢個 issue 可以正式關閉嘞。