Leon0824 / rimeime

Automatically exported from code.google.com/p/rimeime
0 stars 0 forks source link

[用戶詞庫]請問注音轉拼音的規則 #689

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
我有一個新酷音的用戶詞庫,但它的編碼方式是注音符號而��
�是漢語拼音。

我想要匯入小狼毫的用戶詞庫。是否要先將詞庫的由注音編��
�轉為拼音編碼?那麼編碼方式是否要跟隨漢語拼音習慣?

例如:
「翁」(ㄨㄥ)編碼成 weng ,但東(ㄉㄨㄥ)編碼成 
dong,而不是 dueng

我怕編碼錯誤導致失效,故此一問。新酷音詞庫如附圖,格��
�為 
[單字或詞彙][TAB][注音編碼][TAB][使用頻率][TAB][未知][TAB][未知
][TAB][未知]

又有沒有工具或庫方便這種轉換?我會正則表達式、javascript�
��autohotkey.

===
請提供以下信息,幫我們定位問題。

1. 輸入法的款式:小狼毫
   輸入法版本號:0.9.30.0

2. 操作系統類型: Windows
   操作系統版本: 8.1

3. 輸入方案名稱:注音·臺灣正體

Original issue reported on code.google.com by shya...@gmail.com on 17 Jan 2015 at 10:43

Attachments:

GoogleCodeExporter commented 9 years ago
bopomofo 與 terra_pinyin 
共用詞典,其編碼爲帶聲調的漢語拼音,聲調用後置的數字12
345表示。
特別說明:ü 一律轉寫爲 v,音節 lve4, nve4 
的表示法可能與其他拼音輸入法不同。

注音碼表需要寫腳本完成轉換。思路是用正則表達式匹配並��
�行替換。並且要考慮到拼音的特殊拼寫規則。

Original comment by chen....@gmail.com on 18 Jan 2015 at 9:45

GoogleCodeExporter commented 9 years ago
這個工具不知能否支持新酷音詞庫:
https://code.google.com/p/imewlconverter/
它是支持奇摩輸入法的。

Original comment by chen....@gmail.com on 18 Jan 2015 at 9:47

GoogleCodeExporter commented 9 years ago
我試用過 深蓝词库转换 
,發現它不太合用,不能正確識別多音字(「重」複/保「��
�」),「虐」字也編碼成 nue4

rime 
能輸入注音,應該在源碼裡有定義映射(成拼音的)規則,請問
是放在哪個文件?

Original comment by shya...@gmail.com on 18 Jan 2015 at 10:17

Attachments:

GoogleCodeExporter commented 9 years ago
bopomofo.schema.yaml 他是把拼音轉換成注音的

Original comment by chen....@gmail.com on 19 Jan 2015 at 4:48

GoogleCodeExporter commented 9 years ago
我做了一個網頁( http://shyangs.github.io/bd2pd/index.html ),功能: 
注音轉換為拼音(支援新酷音和奇摩輸入法的格式)。

發現有幾個問題。

首先關於「攣」字,我查網路上的漢典,漢典拼成「luan2」,
但臺灣教育部國語字典( http://dict.revised.moe.edu.tw/ 
)有「ㄌㄨㄢˊ」、「ㄌㄩㄢˊ」兩音。「ㄌㄨㄢˊ」轉為「luan
2」,「ㄌㄩㄢˊ」是不是應該轉為「lvan2」?但漢語拼音裡「
lvan2」好像是無效拼法(沒有這個音),能不能用 custom.yaml, 
extended.dict.yaml 
或其他方法使「ㄌㄩㄢˊ」(注音方案)成為有效拼法?

以及「呣」字,漢典有「m2」「m4」兩個音,但是 
bopomofo.schema.yaml 的 speller/algebra 第2條規則 xform/^m(\d)$/mu$1/ 
把它轉成了「mu2」(ㄇㄨˊ)、「mu4」(ㄇㄨˋ)兩個音,但臺灣教
育部異體字字典上只有「ㄇㄡˊ」一個音。( 
http://dict.variants.moe.edu.tw/yitic/frc/frc01077.htm )

另外「呣」字,漢典有第三個音「mou2」,但是在地球拼音方�
��,鍵擊「mou2」,按好幾下<TAB>後,選「呣」字,會把「m」��
�別成「呣」字,而留下「ou2」。

附帶一問 bopomofo.schema.yaml 的 speller/algebra 
為何不把每條規則寫成互相獨立的轉換,去除聲調後,漢語��
�通話的有效音節也才四百多個(相當於四百多條獨立規則)�
��目前的寫法雖然不到30條規則,但一個字音卻要轉換好幾次�
��比如「眾」字,經過了 xform/ong/ung/, xform/([iuv])n/$1en/, 
xform/^zhi?/Z/, xform/eng/G/, 
'xlit|bpmfdtnlgkhjqxZCSrzcsiuvaoeEAIOUMNKGR12345|1qaz2wsxedcrfv5tgbyhnujm8ik,9ol
.0p;/- 6347|' 
共五條規則才從拼音轉成注音。感覺這種關聯規則比獨立規��
�複雜很多,這種轉換方法有什麼優點?

Original comment by shya...@gmail.com on 22 Jan 2015 at 12:56

Attachments:

GoogleCodeExporter commented 9 years ago
AL 5:
lvan2 
是滯古的讀法,應該直接加入詞典,而不應該用拼寫運算映��
�到 luan2。因爲不是所有讀 luan2 的字都有讀 lvan2 的又音。

爲了支持簡拼,m, n, ng 
這三個音節的字需要改成有元音字母的相似讀音,所有拼音��
�入法都是這樣處理的。
失收的讀音請加入詞典。

這裏輸入的拼音/注音是有聲調的,有一千多個音節。一一��
�射當然可以,但是少量規律就可以概括:
比如不同聲調的字,去掉聲調的部分變化是一樣的,那就沒��
�要反覆寫幾一次;同理,聲母、韻母、聲調的變化大多數情�
��下,和音節的其他部分無關,一條規則處理單一的部分,可
以避免重複。對於未定案的拼寫方式,修改起來也比較容易��
�
speller/algebra 
這組拼寫運算是在部署階段執行的,多次迭代不影響打字的��
�率。事實上,規則越少則計算速度越快。

Original comment by chen....@gmail.com on 22 Jan 2015 at 3:13

GoogleCodeExporter commented 9 years ago
為何要內置兩個拼音詞典 terra_pinyin.dict 和 luna_pinyin.dict, 
而不是通過運算從 有聲調的詞典 去除聲調來得到 
無聲調的詞典?

Original comment by shya...@gmail.com on 22 Jan 2015 at 10:44

GoogleCodeExporter commented 9 years ago
AL 7: 
主要因爲後者資料更全(在收字數量、詞彙裏的多音字註音��
�面)。

又、後者在輸入簡拼時較前者略爲快速、少用資源,因爲無��
�調的拼音查詢中一個首字母展開爲幾十組同音字(完整音節�
��,而有聲調會展開爲上百組同音字。

Original comment by chen....@gmail.com on 23 Jan 2015 at 3:01