《廣韻》及繁體支持 #2

melop commented 4 years ago


LingDong- commented 4 years ago

Good suggestion, I agree we should have 廣韻. I'll add that.

For 繁體, there is already support! However since the 韻書s are stored in simplified Chinese, the program internally converts your text to simplified Chinese and do all the check/analysis against that, so very rarely there might be errors.

TTS sounds like a cool idea, but I wonder if it would sound weird, and how to deal with heteronyms. I'll look into that too.

Thanks for the proposal!

melop commented 4 years ago

對多音字(異讀)或多音多義字(破讀)的處理問題。如果可使用HMM,或者DEEP LEARNING來自動根據上下文建議用字,對於多音字,再考慮到意項,那就完美了。 自然,這對於TTS也是很有幫助的,就是自動依照上下文決定適當的讀音(中古音/現代方言音/普通話)。 舉個例子:“復”作恢復、回復解的時候讀房六切入聲,中古 biuk, 粵語fuk6, 普通話fu4. 作“再次”解的時候,讀浮富切,中古 biou, 粵語 *fau6, 普通話fu4. 由於所有現代漢語方言以及域外方音(越南語、朝鮮語、日語)主要都來源於廣韻系統,所以初步想像如果內部數據使用廣韻系統,則可較為容易的映射到任何一種現代方言的語音系統裡面。

melop commented 4 years ago

還有一個好處就是,判斷音韻不再需要硬性記錄某字所屬的小韻,只須判斷其韻母和韻腹在所映射到的方言中是否一樣,就知道能否通押了。 例如在平水韻裡面,一冬二東可以通押,但廣韻不行。在數據映射裡面,可以簡單記錄為合併廣韻的一冬和二東,那新的數據庫就建好了。 判斷平仄則更為簡便,所有廣韻中的上去(可以數字2、3編碼)入聲(從韻尾是否收-p -t -k 可判斷)都是仄聲,就不需要再逐字描述了。