rime / brise

Deprecated; check out /plum/ at https://github.com/rime/plum
GNU General Public License v3.0
198 stars 52 forks source link

「崖」等字注音不当 #110

Closed kahaani closed 8 years ago

kahaani commented 8 years ago

「厓啀嘊娾崕崖睚」这几个字,大陆统读作 yá,台湾统读作 yái,明月拼音和地球拼音的码表都存在问题。

明月拼音的码表:

地球拼音的码表:

ShikiSuen commented 8 years ago

所以我说这种常识类的问题他们之前都想当然以为就活该跟大陆念的。 周杰伦千里之外发行这么多年了,第一句歌词的「屋檐如悬崖」就唱「xuanˊyaiˊ」,大家却都选择当聋子。 https://www.moedict.tw/崖 费玉清独唱的版本也是这么唱的。这里给出费玉清唱的版本,省得有人怨周杰伦唱歌含卤蛋听不清: https://www.youtube.com/watch?v=3JBjnJPmOJs 莫怪我泼凉水,这种批量的、一而再再而三的同类低级错误只可能出自于态度问题。

ShikiSuen commented 8 years ago

事已至此,RIME 所有音韵类输入法都有必要设立两套独立的音韵库。这不应该与简繁体模式绑定,毕竟肯定有台湾人需要用 RIME 敲简化字输出的、且绑定的话也会给需要繁体输出的大陆用户带来不便(除了我这样买过台湾出版的辞典将国语重新自学一遍的奇行种以外)。

ShikiSuen commented 8 years ago

@Kahaani 为防万一,请您亲自确认您所发现的问题是存在于已经编译好的下载版当中、还是 GitHub 的源码当中?前者的词库内容往往落后于后者,而 @lotem 目前似乎推荐用户单独编译的样子。

为什么需要您亲自确认呢?因为这问题的提报人是您。

ghost commented 8 years ago

@ShikiSuen 不要一来就发动大气场好吗……

有可能是自动注音出了问题或是不够完善。假如单字有多个音,我还是希望打 xuan ya 依然能出词。

kahaani commented 8 years ago

@ShikiSuen 已在最新的 brise 库中确认过。

我觉得只是一个技术问题,两种读音兼收即可,没必要上升到简繁、陆台的争论。

大陆普通话和台湾国语大同小异,没必要分设两套码表。

ghost commented 8 years ago

不清楚是不是词组有了手动注音就不管多音字了,总之可给 luna_pinyin.schema.yaml 打个简单的补丁:

patch:
  'speller/algebra/@after last': derive/yai/ya/
kahaani commented 8 years ago

发现一个类似的例子:曝。

明月拼音:

曝 bao 80.43%
曝 pu  19.57%
曝光  pu guang
曝光表   pu guang biao

地球拼音:

曝 pu4
曝光表   bao4 guang1 biao3
曝光表   pu4 guang1 biao3
kahaani commented 8 years ago

@jakwings 是的,如果词组已有手动注音,就不会再自动注音,此处有说明

ghost commented 8 years ago

那段话没有明确地说已注音的不因为有多音字再自动注音啊。我一直以为额外词组的手动注音主要是用来确定编码提示的首选音。😅

我去查查代码看,真的话就试试让它跟据读音权重自动注音会不会组合爆炸吧。用 derive 或者手动给词加音太麻烦了。

kahaani commented 8 years ago

@jakwings

反之,則有必要給出詞組的編碼以消除自動註音的不確定性(例:天地)。

含有多音字的詞組缺少編碼字段時,自動註音程序會利用權重百分比高於5%的讀音進行組合、生成全部可能的註音。

原文这两段够明确吧。我的理解是:消除自動註音的不確定性=消除自動註音=當且僅當

这种设计可以消除错误的自动注音,似乎不宜改。还是觉得改码表比较好。

ghost commented 8 years ago

自动注音本来就有不确定性啊,因为多音字词……(直接看下面的需求算了吧)

这种设计可以消除错误的自动注音,似乎不宜改。

精益求精是好,对于已完全注音的词库来说维护起来或许没那么难(可把多音字词收集起来对所有词做个检索看看)。

也可以提出新的码表语法,指定哪个词包括自动注音,加选项决定是否默认包括自动注音。

kunki commented 8 years ago

已確認是 bug,我找時間修復一下。多謝反饋。

ShikiSuen commented 8 years ago

@Kahaan 有必要分设读音表。需注意 @kunki 根本没有任何动力将轻声结尾的词的全音读法写入到音韵库当中:https://github.com/rime/brise/issues/106 ,而微软新注音自 2010 版开始的的简繁体输出模式各自有一个音韵库(繁体输出模式下的大多数全音读结尾的词在简体输出模式当中都必须敲轻声结尾才可以敲出来)。

我不赞成将两岸的音韵表与简繁汉字表各自绑定…毕竟这对于已经习惯微软新注音繁体输出的人而言在使用简体输出时会极度不适应。但两套音韵表还是必需的,毕竟用惯了微软新注音的人多以在台湾的繁体中文用户为主、和新酷音与雅虎注音一样都习惯在敲很多词时敲全音结尾而非轻声。他们在用 RIME 时发现他们的习惯无法让他们正常藉由 RIME 敲字:「只能用轻声敲最后一个字才可以,否则敲不出来」。而 @kunki https://github.com/rime/brise/issues/106#issuecomment-160272886 则自我感觉良好地以为「碰到輕聲字你直接不輸入聲調嘛」。这样一来,如果不将音韵表分开的话,这类问题终生无解。

我有其它的主业、使得我本人没有时间精力成本来参与这项工作,回头我问问有谁愿意单独做这份音韵表;但对早就习惯于微软新注音、新酷音、雅虎注音的用户而言,当他们发现 RIME 的音韵库就这样的时候、这更像是用脚投票的问题。@jakwings 莫怪我这次再度发火,因为我看到只可能由态度导致的某一类问题再度发生了、且这问题无解(毕竟我没有能力强行改变别人的潜意识)。

ShikiSuen commented 8 years ago

P.S.: 如果我没记错的话,RIME 应该是不分简繁词库、而是直接用一套 OpenCC 标准的字库藉由 OpenCC 分别转换成台湾繁体、香港繁体和简体中文。

lotem commented 8 years ago

這個 BUG 起因,我推測是加入了帶註音的詞彙,而數據來源只標註了異讀字的一種讀音。 標註了多個讀音的字,屬於多音字還是異讀,詞典壓縮工具無法分辨,所以按區分詞語中多音字的情況處理,保留了註音標註。 目前的解法:刪除碼表中相關詞語的註音,改爲自動注音。 可能的改進:如果詞典工具做得足夠精細,可以通過明確標識單字屬於多音字還是異讀字,從而判定詞語未收入碼表的其他推導讀音應該捨棄或降頻保留。

關於輕聲的處理: 哪些字有輕聲的讀音,不好界定。許多輕聲只出現在特定詞語中,而不是字的讀音。 還有許多包含輕聲的詞語,可以不讀輕聲,或者有無輕聲時詞義有別。在碼表裏標註輕聲,要求兼收非輕聲的註音,維護難度更大了。簡單地把輕聲與四聲並列,不是一個理想的技術方案,也不符合語言事實。 其實除了輕聲,還有兒化的問題,現在的拼音輸入法並未做到嚴格按照讀音處理。嚴肅的解決方案是,標註出來哪些場合可以讀作輕聲、兒化音。 就輸入法應用而言,逐一標註做法或許是吃力不討好。一則方纔提到社會規範對輕聲的使用範圍沒有嚴格界定,幾乎是因人而異。二者即使口語讀輕聲,打字時因爲習慣書面上的「字本位」,也常常會用本字的聲調輸入。 更廉價、能一舉保證覆蓋率的方案是碼表裏標註本字的聲調,用拼寫運算由其他四聲派生出輕聲。輕聲就是不讀出本調,具體到漢語拼音,就是不寫出聲調符號。如果再額外標註出來哪些地方可以讀作輕聲、哪些不能,就接近理想解決方案了。

ShikiSuen commented 8 years ago

@lotem 「哪些字有輕聲的讀音,不好界定。」嚴格按照教育部標準辭典即可,因為都是已經界定好的東西。當然,理想的狀態是「無論輕聲與否,皆可準確輸入」而非只能用其中一種方式。

kahaani commented 8 years ago

@lotem 的建议是删去注音,但在有些情况下可能不太妥当。

例如:

曝 bao 80.43%
曝 pu  19.57%
度 du4 95%
度 duo2    5%
曝光度   pu4 guang1 du4

如果删去词组注音,由于「曝」、「度」两字都是多音字,会自动组合出四种读音,其中两种是错的。

是不是可以考虑改为增加一个词条:

曝光度   pu4 guang1 du4
曝光度   bao4 guang1 du4
kahaani commented 8 years ago

@kunki

沿着两岸异读、新旧异读这一思路,找到了第三例注音不当的多音字:癌。

地球拼音的码表:

癌 ai2
癌症  yan2 zheng4

关于两岸异读:

近年两岸合作的《两岸常用词典》提供了「用词差异表」,但似乎不太关注读音差异,没有整理出一份读音差异清单。

这里找到一份材料,来自学术论文,又有审音委员会背书,可供参考: http://www.pthyygf.org/shenyinjinxingshi/2013-12-19/136.html

ShikiSuen commented 8 years ago

@Kahaani 有关于两岸异读,不可仅相信现有的书籍。纵使《两岸常用词典》总结的内容确实很实用、具备参考价值,窃以为仍旧有和教育部标准国语辞典做单独交叉比对之必要。

关于「癌症」,建议将「aiˊzhengˋ」和「yanˊzhengˋ」都收入;关于「癌」,也建议同时收录两种不同的读音。当然,这两条建议仅适用於「仅使用同一份两岸共用音韵表」的情况下

LEOYoon-Tsaw commented 8 years ago

@ShikiSuen 既然兩岸均奉行一個中國原則,那怎麼能有兩套國語呢?

ShikiSuen commented 8 years ago

@LEOYoon-Tsaw 這兩者沒有必然的聯繫,更何況前者只是奉行一個傳統的「中國」地區文化區域概念。

ShikiSuen commented 8 years ago

@LEOYoon-Tsaw 我大概知道你接下來想要問什麼了,請等解放軍佔領台灣之後再繼續來問。

ShikiSuen commented 8 years ago

@LEOYoon-Tsaw 哦對了,還得給你舉個例子:既然只有一個美國,那為什麼能有兩套基於「Author-Dates」的論文格式規範呢(說的就是 APA 和以「Author-Dates」為模式的 Chicago Manual of Style)?這個例問就是按照你的邏輯寫出來的,邏輯壞了就什麼都壞了。

lotem commented 8 years ago

在一個詞典裏兼收兩岸的標準讀音,對作爲工具書的詞典來說不夠嚴謹,但就輸入法應用來說,不會造成使用上的不便,而且綜合來看降低了維護成本。 即使要拆分,可能得考慮一套稍稍複雜的方案:把大量跨地域(、方言)的共通詞彙放在一個共享的碼表裏,再爲各個地區分別維護一個碼表收錄有差異的部分。(詞典可以包含多個碼表文件)

LEOYoon-Tsaw commented 8 years ago

@ShikiSuen甚麼時候開始Github上的人也會不負責任地瞎猜了?即然你能猜出別人想問甚麼,你在這裏自問自答即可。

kunki commented 8 years ago

fixed in https://github.com/rime/brise/commit/7dd0be8dbed46b978c16ee78dc763fc43d2cd730 and https://github.com/rime/brise/commit/0bd42ad96ef2d802d64e7652d54de67a7a532fe0

kahaani commented 8 years ago

谢谢 @kunki,漏了「曝」字:https://github.com/rime/brise/issues/110#issuecomment-220816115

kunki commented 8 years ago

@Kahaani 討論串太長了,所以我看漏了。我下次再處理這一條。

ekd123 commented 8 years ago

@ShikiSuen Rime 是開放軟件,如有不合心意之處,可以自己上手修正,不僅快樂自己,也方便大家,您說對嗎?