Closed lotem closed 9 years ago
wubi86 碼表以簡化字爲主。簡碼 ed 得「須」,上游數據如此: https://raw.githubusercontent.com/acevery/ibus-table-wubi/master/tables/wubi86.txt 有三級簡碼佐證,可以確定該項數據有誤。
嗯,了解,我刚才还在查本项目中哪次提交引入的这个错字,没想到第一次提交这个字就是错的;可是上游数据为什么会弄错这个呢,上游数据的来源是哪?这个二级简码真的是很常用的,居然没有人发现?!
二簡裏面好像有不少繁體字呢。
我看到这个字错后我都不想要输入法自带的 wubi86 了,数据源太不可靠了,因为不确定还有哪些字是错的,这个最让人头疼!
wubi98比較可靠。用吧。 那用海峯五筆?以前我一直用海峯五筆的。
要不要徹底篩一遍?得寫個腳本。 我也去看了 ibus-table-wubi 的 wubi98 碼表,ed 倒沒有錯。但沒有 edm 這個簡碼。不知 wubi98 是不是真的應該沒有。
@osfans 我用86五笔都十几年了,不会换98的。 用哪个五笔输入法都无所谓,我只打单字,所以对大部分字都很确定;今天头一次见到二级简码居然是错的很惊奇。
@lotem 筛选,将一级二级简码筛选出来?
for x in table
if (x.text, x.code.substr(...)) in table and x.text in traditional_chars
console.log x
大意是這樣吧,找到所有有簡碼的繁體字。
這是rime的工具腳本嗎?沒看到過啊
@lotem 我觉得完全不用了,因为我刚刚简单扫了一眼,发现很多二级简码都是错的;如果说要修正所有的一二级简码,那三级简码呢、还有四码的整字呢、是不是都应该是简体字在前啊?
所以我的意见是换源吧,不管是 ibus-table-wubi 还是 brise,这个86五笔编码的问题我觉得完全无法接受。
fcitx?scim?不知還有什麼開源的。
https://raw.githubusercontent.com/rime/brise/12e18ca21cc266d969cc91657c36f276d6a87758/supplement/wubi86.dict.yaml 现在用的 wubi86 原始作者就是 Wozy Original table author Wozy wozy.in@gmail.com 只是有人在处理的过程中出错了,也不知道是哪次提交事件干的;因为之前用过 Wozy 的词库,本身没有问题,所以我建议还是用这个。
再额外加个需求,能不能出个单字版本的库?很多人都喜欢用单字,我是今天才接触这个输入法,没有在文档中找到实现功能的开关或类似的东西。
@osfans 不是…這是僞碼… 不過你提出了一個好思路,造一種 DSL 以方便處理 Rime 數據文件。 我最近迷 CoffeeScript。如果不是擔心性能,都想把 librime 腳本化了。可惜工作有的忙,顧不上折騰。 我看出來了,librime 如果不改革現有的框架,還是很難吸引開發者採用。也許需要再簡單一些些。
librime很好啊,已經移植到arm上了,也搞了jni的接口,java也能使用了。 就是前端界面蠻難搞的。
@networm 最近的版本支持「單字優先」,加上 single_char_filter 就中。 只保留單字。最簡單的辦法是把詞典拆開,一個文件裏只放單字,另一個收詞的詞典引用他。
在詞典文件裏加選項,過濾掉多字的,也不是不可以做…但我覺得沒有上面這辦法明瞭。 現有按字數和詞頻過濾的機制,只用來限制從「八股文」導入的(自動編碼)的詞,而不針對寫明在碼表裏的。
@lotem 其实并不需要在词典文件中加这种选项,这个需求本身就很小众;用分开的文件就很好。
@lotem 单字优先功能在哪有介绍,有更新日志吗?
@osfans 現在只是從前端調用還行,但想寫插件,添加一些功能,要學的還有點多。 我的目標是把擴展他的功能(甚至添加新的 API)做到非常簡單。也有了一些思路,但要實現一個易用的 C++ API,還是很有挑戰的任務。
https://github.com/LEOYoon-Tsaw/Rime_collections/blob/master/Rime_description.md 把 single_char_filter 加在 filters: 之下。 但我記得效果是,沒有屏蔽多字候選,只是放到單字後面了。
@lotem 嗯,这个功能正如字面意思,如果想要多字候选消失那功能应该叫作“只有单字”
@lotem 我用的是最新版的鼠须管,按照你所说的,尝试在 wubi86.schema.yaml 与 default.yaml 中分别加入
filters:
- single_char_filter
或
filters:
single_char_filter: true
都无效,我不太确定这个功能是否编译到我在官网下载的鼠须管中。
@lotem 这个功能不用管了,下个版本再测试吧,我也不这个功能。
建议使用 窝子五笔极爽词库 | 窝子旧网志 重新生成一下。
cg 驪 0 cj 騍 0
极爽词库官方6.0标准版 - 五笔输入法 - 多多中文官方论坛 - 多多中文官方网站
极爽词库6.0官方标准版.zip_免费高速下载|百度云 网盘-分享无限制
我去下载了一个 极爽词库6.0 放到了百度网盘上,原链接需注册,能不能提取这里的一级二级简码或者整个 wubi86 库都用这个?这个来源和现在用的都是 wozy 的极爽词库,直接换应该没什么问题吧?
另外能再做一个单字字库的 wubi86_single_char 方案吗?
不要直接替换默认方案,另建一个新的方案,比如叫「极爽五笔」。
@zcunlin 首先把默认方案的一二级简码都修正了,然后再加个极爽五笔方案、极爽五笔单字方案,这样如何?
可以啊。我自己就是另外做了一个单字方案,不调频,几乎都能空格上屏。因为以前我玩游戏,玩dota2的时候用小狼毫看不到候选窗,只能闭眼打字。
修完了
@lotem 谢谢!
上游好多年沒人管了?
@osfans 上游这个 wubi86 一共就在 2008 年提交过两次。 然后第一次的数据不对,第二次又改错了一二级简码。
@networm 我基于原五笔码表整理了一份单字码表,暂时不知道该怎么提交好,欢迎试用。
二级简码我是参考一本旧五笔教程整理的,空码已用「#」注释掉了,可以自己看下。(沒有ed) 三级简码是用一个比较旧的输入法自动打出来的。相关注释仅仅是建议。
地址:https://github.com/jakwings/brise/blob/wubi86/supplement/wubi86_char.dict.yaml
王碼五筆86版二級簡碼總表
該二級簡碼碼表源於《相马打字通2000五笔字词典》。
ISBN:7-900332-77-4
简介:http://book.douban.com/isbn/9787900332776
備註:該表有576組,實際上各輸入法可能提供更多。
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
A式节芭基菜革七牙东划或功贡世#芝区匠苛攻燕切共药芳A
B陈子#承阴际卫耻#阳职阵出也耿辽隐孤阿降联限队陛防B
C戏邓##能对######观马##允牟#矣#艰难#驻C
D左顾友大胡夺三丰砂百右历面成灰达克原厅帮磁肆春龙太D
E肛服肥#朋肝且#膛胆肿肋肌甩#爱胸遥采用胶妥脸脂及E
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
F载地支城圾寺二直示进吉协南志赤过无垢霜才增雪夫#坟F
G开屯到天表于五下不理事画现与来#列珠末玫平妻珍互玉G
H虎#皮#肯睦睛止步旧占卤贞卢眯瞎餐#盯睡瞳眼具此眩H
I江池汉尖肖法汪小水浊澡渐没沁淡学光泊洒少洋当兴涨注I
J虹最紧晨明时量早晃昌蝇曙遇电显晕晚蝗果昨暗归蛤昆景J
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
K呀啊吧顺吸叶呈中吵虽吕另员叫#喧史听呆呼啼哪只哟嘛K
L##轻因胃轩车四#辊加男轴思#边罗斩困力较轨办累罚L
M曲邮凤央骨财同由峭则#崭册岂#迪风贩朵几赠#内#凡M
N民敢怪居#导怀##慢避惭届忆屡忱懈怕#必习恨愉尼心N
O煤籽烃类粗灶业粘炒烛炽烟灿断炎迷炮煌灯烽料娄粉#米O
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
P宽字#害家守定寂宵审宫军宙官灾之宛宾宁客实安空它社P
Q氏凶色然角针钱外乐旬名甸负包炙锭多铁钉儿匀争欠#久Q
R找报反拓扔持后年朱提扣押抽所搂近换折打手拉扫失批扩R
S械李权枯极村本相档查可楞机杨杰棕构析林格样要检楷术S
T长季么知秀行生处秒得各务向秘秋管称物条笔科委答第入T
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
U并闻冯关前半闰站冰间部曾商决普帝交瓣亲产立妆闪北六U
V毁好妈姑奶寻姨#录旭#舅#刀灵巡婚#杂九嫌妇#姆妨V
W代他公估仍会全个偿介保佃仙亿伙#你伯休作们分从化信W
X红弛经#级结线引#旨强细纲纪继综约绵#张弱绿给比纺X
Y度离充庆衣计主让就刘训为高记变这义诉订放说良认率方Y
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
@jakwings 我已经准备用极爽6.0词库了,但还是非常感谢!
From @networm on June 10, 2015 6:52
按 ed 时出现的是“須”,而不是预想中的“须”。在这里“须”实际上是 edm,有点奇怪这个方案的数据是如何得出的,因为“须”字是五笔86中的二级简码。
Copied from original issue: rime/squirrel#55