Open GoogleCodeExporter opened 9 years ago
bopomofo 與 terra_pinyin
共用詞典,其編碼爲帶聲調的漢語拼音,聲調用後置的數字12
345表示。
特別說明:ü 一律轉寫爲 v,音節 lve4, nve4
的表示法可能與其他拼音輸入法不同。
注音碼表需要寫腳本完成轉換。思路是用正則表達式匹配並��
�行替換。並且要考慮到拼音的特殊拼寫規則。
Original comment by chen....@gmail.com
on 18 Jan 2015 at 9:45
這個工具不知能否支持新酷音詞庫:
https://code.google.com/p/imewlconverter/
它是支持奇摩輸入法的。
Original comment by chen....@gmail.com
on 18 Jan 2015 at 9:47
我試用過 深蓝词库转换
,發現它不太合用,不能正確識別多音字(「重」複/保「��
�」),「虐」字也編碼成 nue4
rime
能輸入注音,應該在源碼裡有定義映射(成拼音的)規則,請問
是放在哪個文件?
Original comment by shya...@gmail.com
on 18 Jan 2015 at 10:17
Attachments:
bopomofo.schema.yaml 他是把拼音轉換成注音的
Original comment by chen....@gmail.com
on 19 Jan 2015 at 4:48
我做了一個網頁( http://shyangs.github.io/bd2pd/index.html ),功能:
注音轉換為拼音(支援新酷音和奇摩輸入法的格式)。
發現有幾個問題。
首先關於「攣」字,我查網路上的漢典,漢典拼成「luan2」,
但臺灣教育部國語字典( http://dict.revised.moe.edu.tw/
)有「ㄌㄨㄢˊ」、「ㄌㄩㄢˊ」兩音。「ㄌㄨㄢˊ」轉為「luan
2」,「ㄌㄩㄢˊ」是不是應該轉為「lvan2」?但漢語拼音裡「
lvan2」好像是無效拼法(沒有這個音),能不能用 custom.yaml,
extended.dict.yaml
或其他方法使「ㄌㄩㄢˊ」(注音方案)成為有效拼法?
以及「呣」字,漢典有「m2」「m4」兩個音,但是
bopomofo.schema.yaml 的 speller/algebra 第2條規則 xform/^m(\d)$/mu$1/
把它轉成了「mu2」(ㄇㄨˊ)、「mu4」(ㄇㄨˋ)兩個音,但臺灣教
育部異體字字典上只有「ㄇㄡˊ」一個音。(
http://dict.variants.moe.edu.tw/yitic/frc/frc01077.htm )
另外「呣」字,漢典有第三個音「mou2」,但是在地球拼音方�
��,鍵擊「mou2」,按好幾下<TAB>後,選「呣」字,會把「m」��
�別成「呣」字,而留下「ou2」。
附帶一問 bopomofo.schema.yaml 的 speller/algebra
為何不把每條規則寫成互相獨立的轉換,去除聲調後,漢語��
�通話的有效音節也才四百多個(相當於四百多條獨立規則)�
��目前的寫法雖然不到30條規則,但一個字音卻要轉換好幾次�
��比如「眾」字,經過了 xform/ong/ung/, xform/([iuv])n/$1en/,
xform/^zhi?/Z/, xform/eng/G/,
'xlit|bpmfdtnlgkhjqxZCSrzcsiuvaoeEAIOUMNKGR12345|1qaz2wsxedcrfv5tgbyhnujm8ik,9ol
.0p;/- 6347|'
共五條規則才從拼音轉成注音。感覺這種關聯規則比獨立規��
�複雜很多,這種轉換方法有什麼優點?
Original comment by shya...@gmail.com
on 22 Jan 2015 at 12:56
Attachments:
AL 5:
lvan2
是滯古的讀法,應該直接加入詞典,而不應該用拼寫運算映��
�到 luan2。因爲不是所有讀 luan2 的字都有讀 lvan2 的又音。
爲了支持簡拼,m, n, ng
這三個音節的字需要改成有元音字母的相似讀音,所有拼音��
�入法都是這樣處理的。
失收的讀音請加入詞典。
這裏輸入的拼音/注音是有聲調的,有一千多個音節。一一��
�射當然可以,但是少量規律就可以概括:
比如不同聲調的字,去掉聲調的部分變化是一樣的,那就沒��
�要反覆寫幾一次;同理,聲母、韻母、聲調的變化大多數情�
��下,和音節的其他部分無關,一條規則處理單一的部分,可
以避免重複。對於未定案的拼寫方式,修改起來也比較容易��
�
speller/algebra
這組拼寫運算是在部署階段執行的,多次迭代不影響打字的��
�率。事實上,規則越少則計算速度越快。
Original comment by chen....@gmail.com
on 22 Jan 2015 at 3:13
為何要內置兩個拼音詞典 terra_pinyin.dict 和 luna_pinyin.dict,
而不是通過運算從 有聲調的詞典 去除聲調來得到
無聲調的詞典?
Original comment by shya...@gmail.com
on 22 Jan 2015 at 10:44
AL 7:
主要因爲後者資料更全(在收字數量、詞彙裏的多音字註音��
�面)。
又、後者在輸入簡拼時較前者略爲快速、少用資源,因爲無��
�調的拼音查詢中一個首字母展開爲幾十組同音字(完整音節�
��,而有聲調會展開爲上百組同音字。
Original comment by chen....@gmail.com
on 23 Jan 2015 at 3:01
Original issue reported on code.google.com by
shya...@gmail.com
on 17 Jan 2015 at 10:43Attachments: