iDvel / rime-ice

Rime 配置:雾凇拼音 | 长期维护的简体词库
https://dvel.me/posts/rime-ice/
GNU General Public License v3.0
8.92k stars 603 forks source link

短单词置顶的问题(长期更新,也许需要讨论) #306

Closed pdog18 closed 1 year ago

pdog18 commented 1 year ago

en.dict.yaml 中的单词(length <= 4) 的。

2664 个: 2664 - gist

en_ext 中有 698 个

我简单统计了其中的2665 个中的 500多个短单词

其中有一些单词, 可能会有「短单词置顶」的问题:

adds          阿迪达斯**
aft       阿凡提**
aims        艾玛/爱马仕**
air       爱人**
AK        阿珂*
all       阿拉蕾**
AMD       爱美的*
and       俺的*
Ann       按钮**
ANSI          按时*
ant       安踏**
anti          安替*
Apr       安排人*
art       按人头*
arts          安如泰山*
as        按时**
asc       按时吃*
ash       按时*
Asin          爱死你**
ask       奥斯卡*
ATM       奥特曼**
atom          阿童木**
awe       安慰*
axle          安心了*
babe         八倍*
Bach          八成*
bad       八点**
bag       八卦**
bait          白天**
bald          巴厘岛**
balm          把里面*
band        办的*
bank          板块**
bash          八十/把手**
bat       把他/吧台**
bay       拔牙**
BBC       蹦蹦床**
BBQ       芭比Q*
BBS       并不是**
BDSM          别的什么/表达什么*
be        被*
bead        被爱的*
bean          备案*
bed       笨蛋*
beer          贝尔**
beg       悲观**
bel       本来*
bell         本来了/被绿了*
Bell          报恩榴莲*
bend        笨蛋**
BenQ          本钱**
bent          本田/本土/奔头/本帖**
Benz          本周/本子/本质**
Bert          博尔特**
beth          本土/本土化**
bets          被他/被投诉*
bid       必定**
bien          别挠/别闹/别扭**
big       闭关/逼格**
bins          濒死**
bird          必然的**
bit       比他/鼻涕**
biz       壁纸**
BOC       菠菜**
bold          玻璃的*
bolt          柏拉图**
bot       脖套/拨通/波推*
box       剥削**
boy       博弈**
bra       不然*
brad         必然的*
bras          不然是/不认识*
brew          别惹我**
brim          白日梦**
bro       包容*
buck         不吃亏**
bud       不懂**
bull          不聊了**
bunk          不能看**
burn          不然呢**
burr          不让人*
Burt          不让他*
bury          不容易**
bush         不是**
bust          不是他*
busy          不是有/不是呀*
buzz          不尊重*
by        拔牙/不要**
bye       毕业**
cab       擦边**
cabo         擦波/插播**
cad       擦的/擦掉**
cans          参数**
cant          餐厅**
cas       擦拭*
cash          擦拭*
chad        差点**
chap          差评**
char          插入**
chat          插头**
chef          车费**
chew          车位**
chip          持平**
chow          宠物*
clad          吃辣的*
clam          吃拉面*
clan          灿烂**
CLI       处理**
clue          策略**
Cmd       聪明的**
CMS       层面上**
CNN       纯牛奶**
col       从来*
CPU       菜谱**
cron          从容*
cruz          出入证/耻辱柱**
CS        城市/参数**
cum       出门**
cunt         寸头**
pdog18 commented 1 year ago

从这个角度看来,类似的单词还会有很多(按概率来算可能还有上百个)。

如果重码时,明确为 拼音 的状态倒也罢了,这样 reduce_english_filter 让英文单词排列在 非首位 是没有负担的。

但是当我们无法明确判断输入码更适合作为拼音,还是更适合作为单词的情况下,reduce_english_filter 的处境就变得尴尬了(当然这是 Rime 带来的问题)

举例: 输入码: bbq, 有些用家希望是 BBQ,而其他一些有趣的用家更希望是芭比Q,这时候,无论让 BBQ 处于首选还是置于次选都是不合适的,更正确的情况应该是动态调整。这显然就是 librime 的问题了。

pdog18 commented 1 year ago

补充:我在 rime-discussion 新开了一个主题: https://github.com/rime/home/discussions/1307

iDvel commented 1 year ago

简码和英文重叠的问题,除非是特别常用的,比如 rug 如果,剩下的懒得弄了。

这个不太好搞吧,比如全拼除了 i v u 开头的,只要脸滚键盘就是简拼,hello 的简拼为「合理了哦」,world 的简拼为「我忍了都」。

melt_eng/initial_quality: 0 可以不让英文在前面,但这样英文输入的体验又不是很好。

hoofcushion commented 1 year ago

英文输入用lua_translator智能调频,可以解决你说的问题,但是会调用几个先进的lua接口,就不能跨平台了。

pdog18 commented 1 year ago

chap

真的不太好搞,看看 librime 那边有没有什么方案。

不过 chap 差评 bend 笨蛋 优先级应该不低的(相对于单词)。

hoofcushion commented 1 year ago

lua translator直接设置输入码没达到长度降权就行了

pdog18 commented 1 year ago

lua translator直接设置输入码没达到长度降权就行了

这肯定不行啊,有些就是需要短单词,例如 menu

hoofcushion commented 1 year ago

lua translator也可以设置全码对应时提权,而且降权也不代表会排在非常后面,给英文适当降权更有利于连贯输入。

hoofcushion commented 1 year ago

我目前的英文副翻译器策略是 2码以上激活 输入码长度大于5时且全码对应时,权重+100%并最多再加载一个候选 中文翻译器非全码状态且英文翻译器全码对应时时权重+10% 补全总是使用正数词频 所有非首位候选权重减半

pdog18 commented 1 year ago

为了 rime-ice 不受干扰, issue 干净些,先 close 不影响继续更新。