vChewing / vChewing-macOS

威注音輸入法 macOS 版,恐怕是截至目前為止在功能多樣性方面最強的第三方免費 macOS 系統專用輸入法,採純 Swift 語言寫就。威注音的著力點是盡可能在力所能及的範圍內將整個產品的功能做得更好用,搭配特製的簡體中文與繁體中文專用辭庫。是純粹的簡體中文注音輸入法(也內贈原生繁體中文輸入模式),更具諸多威注音特色功能。目前研發管理工作均在 CSDN GitCode 進行。
https://vchewing.github.io/
Other
303 stars 10 forks source link

新增對奇摩輸入法匯出的使用者詞彙 txt 檔案的格式支援 #500

Closed ShikiSuen closed 10 months ago

ShikiSuen commented 10 months ago

多一個手動修改步驟就會多打一次退堂鼓,於是就有必要提供這種便利。

奇摩輸入法匯出的 txt 格式的檔案範例如下:

MJSR version 1.0.0
命運石之門   ㄇㄧㄥˋ,ㄩㄣˋ,ㄕˊ,ㄓ,ㄇㄣˊ   -1.174761   0.0
守望先鋒    ㄕㄡˇ,ㄨㄤˋ,ㄒㄧㄢ,ㄈㄥ  -1.174761   0.0
鬥陣特攻    ㄉㄡˋ,ㄓㄣˋ,ㄊㄜˋ,ㄍㄨㄥ -1.174761   0.0
前沿技術    ㄑㄧㄢˊ,ㄧㄢˊ,ㄐㄧˋ,ㄕㄨˋ    -1.174761   0.0
威鋒數位    ㄨㄟ,ㄈㄥ,ㄕㄨˋ,ㄨㄟˋ   -1.174761   0.0
學園偶像祭   ㄒㄩㄝˊ,ㄩㄢˊ,ㄡˇ,ㄒㄧㄤˋ,ㄐㄧˋ    -1.174761   0.0
倒戈相向    ㄉㄠˇ,ㄍㄜ,ㄒㄧㄤ,ㄒㄧㄤˋ -1.174761   0.0

# What follows is the "Automatic Learning" database, do not remove this
<database>
5238c9909bb54e5a7073808f185aa2b20400010120402020b57f7f89b7b9
2469487b2d78de8d2c5a514574af044d9848cae4ca35daa61c55fc3f7e0e
879bd0e45060cfd684f7263fbc4677b3cd81f85dd8435937f03020a719e0
85dce45ef278ea5ab9aa31eb7fc699723e4e20266f986742c831974ba45b
………………
</database>

其中:

  1. <database>章節的內容無法利用,只能忽略掉。為什麼說無法利用呢?因為裡面僅保存了 bigram 以及 uom 的頻率資料、但卻是 CEROD 加密了的。

    image
  2. MJSR version 1.0.0 說明該內容是由奇摩輸入法的文殊菩薩引擎 1.0 生成的檔案。

剩下的內容呢,每一筆資料都有四個欄位:漢字、讀音(以「,」分隔)、概率、是否干涉(back-off)

目前尚未查明 back-off 的欄位是否可利用,但其餘三項欄位都可以利用。 威注音這邊要做的就是對第二欄位當中的,分隔符的利用。當下述情況滿足時,西文半形逗號會被當作分隔符:

  1. 該欄位不是以_開頭。
  2. 該欄位的字元數量大於 1。
  3. 該欄位不以西文半形逗號開頭或結尾。

該功能特性會在威注音 3.6.2 當中實裝。