rime / rime-cantonese

Rime Cantonese input schema | 粵語拼音輸入方案
https://jyutping.net/
Creative Commons Attribution 4.0 International
551 stars 61 forks source link

IPA 符號問題 #109

Closed graphemecluster closed 3 years ago

graphemecluster commented 3 years ago
  1. 喺 d95ebc15778696181983fcd1e1857ea60be8b20e 呢個 commit 度,[ʊ]、[ɪ] 分別被改成 [o] 同 [e],理由係咩?就係因為 Bauer & Benedict 1997, 49 呢份 document??? https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L47 https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L50 https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L77 https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L80 https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L81 https://github.com/rime/rime-cantonese/blob/4bb66dfdd904408d998f9b09ef8bf617e24bac43/jyut6ping3_ipa.schema.yaml#L91

  2. 點解 [sɐi˧˥ sɐu˧˥] 唔寫做 [sɐj˧˥.sɐw˧˥],[t͡sʰɐu˨˩ t͡sʰɵy˨˩] 唔寫做 [t͡sʰɐw˨˩.t͡sʰɵɥ˨˩]?起碼都標返個非音節符號,寫做 [sɐ˧˥.sɐ˧˥] 呀!

  3. 第四聲我 perfer ˩ 多過 ˨˩,你哋點睇?

tanxpyox commented 3 years ago

召喚專家: @chaaklau

laubonghaudoi commented 3 years ago

@graphemecluster 多謝你嘅提問。IPA標記呢樣嘢本身就有主觀性,如果你覺得標成半元音比雙元音好,可唔可以畀出論文引用佐證?

rime-cantonese 團隊入面有 LSHK 嘅成員,呢個 IPA 標記法係經過 LHSK 成員(包括粵拼嘅創始人)審覈嘅,如果你覺得有需要改進嘅地方,可以提供實驗證明或者引用研究我哋一齊討論。

chaaklau commented 3 years ago

多謝你嘅提問。

1) 除咗係因為 Bauer & Benedict 嘅分析,用 [ʊ]、[ɪ] 有少少係跟咗英文嘅標記習慣。用 [e] 同 [o] 嘅原因我覺得有以下呢啲

  1. [ʊ]、[ɪ] 係專用嚟記鬆緊對立入面嘅「鬆元音」,粵語嘅 -ing -ik -ung -uk 嘅元音並唔係同 i / u 兩個粵拼元音嘅鬆緊對立
  2. 本身 [e] 同 [o] 已經有喺 -ei 同 -ou 兩個韻母,似乎唔應該假設有多兩個符號。
  3. 本來 -ei 同 -ing 嘅元音音質就好似,假設佢哋屬於同一個音素有語音學嘅支持

2) 我明白。韻腳唔寫做 j w ɥ,其中一個原因係佢嘅長度同前面元音互補,喺短元音(例如粵拼嘅 a)之後,韻腳部份可以拉得好長。音節邊界可以用調號睇出。我覺得非音節標記如果係嚴式轉寫可以加,不過現時呢個似乎係寬式轉寫?

3) 我強烈認同第四調係單純嘅「超低平」,只係要 hit 呢個 pitch target,聲帶要啲時間,所以單字獨用嗰陣會有下降。呢個標調係歷史問題,日後再檢討。

graphemecluster commented 3 years ago

嗯……其實 Bauer & Benedict 用嘅係 [eʲ] 同 [oʷ],始終同 [e] 同 [o] 有一定嘅分別

似乎有好多論文都寫做 [j] [w] [ɥ](見下面),而且輔音(同半元音)反而唔同元音,冇指定長度,如果元音要互補 [ɐi] 應該寫做 [ɐiː](?)

頭呢兩篇直程係講 vowels https://core.ac.uk/download/pdf/48550333.pdf (Page 30) http://individual.utoronto.ca/michael_barrie/TWPL20.Barrie.pdf (Page 5)

跟住呢兩篇好長,不過都有用嘅 https://discovery.ucl.ac.uk/id/eprint/1317605/1/260863.pdf (Page 31) https://books.google.com.hk/books?id=DTtyU2CC-B8C&printsec=frontcover (Page 13) (Available here)

呢兩篇有略略提及到 http://ling.cuhk.edu.hk/people/peggy/LuoLiMok_LS_2019.pdf http://d-scholarship.pitt.edu/36952/1/tse_h_2019_aplv_accepted_manuscript.pdf

最後呢兩篇有啲離題,我照擺係度: https://naccl.osu.edu/sites/naccl.osu.edu/files/NACCL-21_Vol._1--Yen-chen%20Hao--pp._42-54.pdf (Page 3) http://hub.hku.hk/bitstream/10722/42515/1/15255.pdf (Page 5)

如果有需要我建議將所有有爭議嘅地方,統計一下用各個 transcription 嘅論文數量嚟做決定

chaaklau commented 3 years ago

嗯……其實 Bauer & Benedict 用嘅係 [eʲ] 同 [oʷ],始終同 [e] 同 [o] 有一定嘅分別

我寧願話呢個 [eʲ] 係 /e/ 喺單獨成韻嘅時候嘅語音表現。長元音有可能有唔同程度嘅雙元音化,有啲人寫,有啲人唔寫。例如 Bruce Hayes 描述美式英文嘅元音系統, say 呢個詞就係寫 /e/ 就算,就算好多人都會有少少 [j] 喺尾,有少少「動程」。

[j] [w] [ɥ](見下面),而且輔音(同半元音)反而唔同元音,冇指定長度

我同意呢個處理,但係另一個問題就係圓唇與否又係程度問題(-eoi 好圓,-oi 圓啲,-aai 好扁)。唔緊要,兩個寫法都只係慣例。

如果元音要互補 [ɐi] 應該寫做 [ɐiː](?)

有 ... 真係有呢個處理方法,不過 -ai 呢個「長少少」嘅韻腳,同單獨嘅長元音 -i 相差好遠(只係略略長過 -aai 嗰個韻腳),用 ː 會好誤導。

如果有需要我建議將所有有爭議嘅地方,統計一下用各個 transcription 嘅論文數量嚟做決定

唔可以計數量㗎。用嘅符號每個音系學家都唔同,代表咗背後嘅音系假設。呢點係每個語言都係噉,有啲係主觀嘅美感判斷,有啲係理論上嘅分歧。唔可以一刀切。

laubonghaudoi commented 3 years ago

其實按照我自己嘅個人印象,學界對漢語(唔係凈係粵語)複韻母嘅轉寫從來就冇過一致觀點?我既讀過論文轉寫成雙元音亦都有轉寫成單元音加半元音嘅,而且針對呢個問題好似都略過咗專門嘅理由,加上缺少實驗測量,所以就變成公說公有理婆說婆有理。

我哋而家係用緊嚴式標記嘅,但係就算係嚴式都應該唔使加音節標記轉寫?因爲已經有聲調符號喺後面區分音節,而且仲有個問題係如果要加埋音節嘅話,打字嗰陣如果唔打聲調嘅話要利用個 rime 引擎嘅分詞嚟自動識別音節邊界,呢個 regex 好似有啲難寫我未諗到點實現。

第四調寫成低平呢個,我記得睇過測量個調係有輕微下降嘅(論文搵唔返),不過同平調差別都唔大。而家標成降調單純係跟 Bauer & Benedict,雖然我覺得係從音系對應整齊嚟講,係平調合理啲,不過應該冇乜所謂。

統計所有論文嘅轉寫再確定我覺得呢個冇乜可能,因爲論文太多永遠都統計唔完,我哋都係揀最「出名」嘅嚟照抄。用咗 Bauer & Benedict 單純係因爲篇文章作者係 LSHK 嘅核心成員,噉幾歹都用返自己嘢啦。

graphemecluster commented 3 years ago

我都明白嘅,如果可以有個設定介面比用戶自己選擇就好喇……

至於2,個問題唔係音節邊界,而係邊個係主要母音,硬要講個例子,寫 [iəi] 通常會約定俗成覺得 [ə] 係主要母音,但係喺越南文佢係 [iə̯j] 呢嘅。

regex 唔係一個問題,同我講係邊個位我好希望幫到你哋㗎。

有 ... 真係有呢個處理方法,不過 -ai 呢個「長少少」嘅韻腳,同單獨嘅長元音 -i 相差好遠(只係略略長過 -aai 嗰個韻腳),用 ː 會好誤導。

咁用半長 [ˑ] 又點?(隨口噏下)

graphemecluster commented 3 years ago

因為某啲原因我宜家都認同用 [e] 同 [o] 的確係好過用 [ʊ] 同 [ɪ],不過我自己都會按慣例用返 [ʊ] 同 [ɪ]。 @ayaka14732 畀啲意見?

ayaka14732 commented 3 years ago

@graphemecluster 我唔係好清楚語音學嘅嘢 XD

laubonghaudoi commented 3 years ago

regex 唔係一個問題,同我講係邊個位我好希望幫到你哋㗎。

@graphemecluster 一係你開個PR先?我唔係好清楚你想實現個咩效果出來

graphemecluster commented 3 years ago

而且仲有個問題係如果要加埋音節嘅話,打字嗰陣如果唔打聲調嘅話要利用個 rime 引擎嘅分詞嚟自動識別音節邊界,呢個 regex 好似有啲難寫我未諗到點實現。

您可唔可以詳細描述下?直接喺 - xform/oi/ɔːI/ 度加 ̯ 會有咩問題?

laubonghaudoi commented 3 years ago

@graphemecluster 我已經唔記得咗具體有乜問題,反正你可唔可以直接開個 PR 將你想要嘅效果整落去畀大家睇下?我哋睇過如果得嘅話就 merge 入去