iDvel / rime-ice

Rime 配置:雾凇拼音 | 长期维护的简体词库
https://dvel.me/posts/rime-ice/
GNU General Public License v3.0
9.46k stars 632 forks source link

词库贡献 #666

Open iDvel opened 9 months ago

iDvel commented 9 months ago

目前词库已经过脚本检查及大量人工校对,但难免有疏漏。 如果有词汇缺失、错音、错字、初始排序不合理的问题,可以直接 PR 或在此留言。

iDvel commented 9 months ago

「豉 shi」「箐 jing」放大字表了。 笭箐,竹字头应该是草字头。

iDvel commented 8 months ago

应该就是「涴yuan市镇」,参考《现汉》、《现规》。 没必要保留「剿袭」,语言可以很浪漫,文字规范还是越严谨越好,已快绝迹的异形词最好还是不要用了。

iDvel commented 8 months ago

抖音上当地人都念 yuan,应该是没异议。

tao659 commented 8 months ago

主要用的是 蔄山 和 苘山 也读 man shan 这两个 现在 也有一些写𬜬山 但是很少,主要是 前面两个,公文一般是蔄山, 非正式公文一般写苘山 的多

或许将 苘山 独读 man shan 的 只有 本地人

iDvel commented 8 months ago

「𬜬山」、「蔄山」都写上得了。 「苘qing」应该是误写,百度百科是一点都不能信的。

汉字在这种规范上老坑爹了。 类推简化了「蔄man」→「𬜬man」,十多年过去了,字典还是「𬜬」,当地人包括当地政府还是用「蔄」。 规范出了没人用,也没有顺从当地习惯更改规范,最后就是混用,摆烂,也没人管。

boomker commented 8 months ago

整理出部分错音词条放到附件里 rime-ice_zhuyin-err.txt

chenbihao commented 8 months ago

打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现

iDvel commented 8 months ago

唵嘛呢叭咪 唵嘛呢嘛呢叭咪吽

唵并没有 ong 这个音,汉语里面也没有 ong 音节的字。 我看好多电视剧里就念 an 的; 或者按外来音,注音为 wong,之类, 或者直接注在英文,或者中英混合词典中

(注 ong 音,会导致编译为词典包 pack 的时候,由于缺少这个音节,报错并 drop 掉这个词汇)

「唵嘛呢叭咪吽」按字典的音来注吧, an ma ni ba mi hong http://www.jiaodui.com/bbs/read.php?tid=10782 目前也有简单的方法,可输入「六字真言」或「六字大明咒」,通过 emoji 来输出。

iDvel commented 8 months ago

打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现

默认的纠错里有些纠错是这样的,lui 会纠错为 liu(给 liu 派生 lui),rne 会纠错为 ren,经常全拼简拼混输的话可以删除那一部分。 https://github.com/iDvel/rime-ice/blob/6d438fb8f4de5e54e0fb2e1daf0635d729277493/rime_ice.schema.yaml#L474-L549

mavsill commented 8 months ago

刚更新完怎么感觉都错乱了……从辅音p开始好像……

image image image image image
iDvel commented 8 months ago

刚更新完怎么感觉都错乱了……从辅音p开始好像……

你是开了智能纠错吗?你用默认配置试试。

mavsill commented 8 months ago

刚更新完怎么感觉都错乱了……从辅音p开始好像……

你是开了智能纠错吗?你用默认配置试试。

啊我都不知道咋开……只是替换了这次更新的文件……之前都没问题的。

iDvel commented 8 months ago

不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。 直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。

mavsill commented 8 months ago

不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。 直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。

啊啊是我的问题,加sort: by_weight的时候前面多了个空格……现在正常了。不好意思啊!

iDvel commented 8 months ago

还是就这样吧,我试了一下大小是一样的,速度好像也没多大差距。 我把很多同义多音字如「熟、血」之类的也扔到 tencent 词库,让 Rime 自动注了。 平时加词我也是扔到 tencent 里了,不用写注音,方便一点。

gaboolic commented 8 months ago

https://github.com/iDvel/rime-ice/issues/703

词库里很多 “犭更犬”,是否要改为 “㹴犬”

tansongchen commented 8 months ago

尝试使用雾凇拼音来开发其他输入方案的过程中,发现部分词组的注音中某个字的读音没有包含在它单独的读音中:

dropping entry '陈寅恪' with invalid syllable: que
dropping entry '放饭流歠' with invalid syllable: chu
dropping entry '解州' with invalid syllable: hai
dropping entry '解州关帝庙' with invalid syllable: hai
dropping entry '解州镇' with invalid syllable: hai
dropping entry '亠部' with invalid syllable: jiong
dropping entry '擖哧' with invalid syllable: ka
dropping entry '肋脦' with invalid syllable: de
dropping entry '艋舺' with invalid syllable: jia
dropping entry '将进酒' with invalid syllable: qiang
dropping entry '青玉案' with invalid syllable: wan
dropping entry '青玉案元夕' with invalid syllable: wan
dropping entry '通什镇' with invalid syllable: za
dropping entry '菶菶萋萋' with invalid syllable: yong
dropping entry '鲗鱼涌' with invalid syllable: ze
dropping entry '槁项黄馘' with invalid syllable: xu
dropping entry '黄馘槁项' with invalid syllable: xu
dropping entry '尨眉皓发' with invalid syllable: rong
dropping entry '泥而不滓' with invalid syllable: nie

这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?

tansongchen commented 8 months ago

tencent 这几个词没有相应的拼音,注不出来

E20240301 15:00:13.292201 232383 entry_collector.cc:135] Encode failure: '李到𬀪'.
E20240301 15:00:14.678122 232383 entry_collector.cc:135] Encode failure: '薄护尾𬶏'.
E20240301 15:00:14.679606 232383 entry_collector.cc:135] Encode failure: '薄身罗马诺𬶋'.
CrotchBurnt commented 8 months ago

商贷 商转公

gaboolic commented 8 months ago

缺少“藤壶” 然而腾讯词库有“鹅颈藤壶”

gaboolic commented 8 months ago

是否可以把已经存在于8105.dict的字从41448中去掉

gaboolic commented 8 months ago

求收录“善茬” “不是善茬”在词库里,“善茬”不在

gaboolic commented 8 months ago

挼 增加rua的音

iDvel commented 8 months ago

这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?

这个不用了,词库里很多字表没有的字,注上音就行了。

iDvel commented 8 months ago

是否可以把已经存在于8105.dict的字从41448中去掉

重复的字不影响部署,先挂载的权重生效,留着也可以单独使用。

hegotit commented 7 months ago

问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「bao」还是「pu」?目前只能打「bao」才能打出这个词,是否需要加上「bao」这个注音?

iDvel commented 7 months ago

问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「bao」还是「pu」?目前只能打「bao」才能打出这个词,是否需要加上「bao」这个注音?

「曝尸」将换成「暴尸」。参考 http://www.jiaodui.org/bbs/read.php?tid=18496

changzaicl commented 7 months ago

词库中有2组词语: 体外受精,体外授精;人工授精,人工受精。 实际上只有 “体外受精,人工授精”是正确的。没有 “体外授精,人工受精”这2个词。

changzaicl commented 7 months ago

桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。 胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。

gaboolic commented 7 months ago

关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到

类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高

gaboolic commented 7 months ago

关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到

类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高

我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意 污蔑 诬蔑

gaboolic commented 7 months ago

词频问题: 李德金 离得近 看了下李德金在腾讯词库,离得近在ext词库,词频都是100,是不是可以把ext词库词频调高点?

gaboolic commented 7 months ago

缺词:折衷

hoofcushion commented 7 months ago
他问的 5 短语
时空画师 4 科幻小说, 曾获雨果奖
这是啥意思 4 短语
下降部 4 字体设计概念, 如 yg 底部
上升部 4 字体设计概念, 与下降部相对
我真服了 4 短语
哈斯人 4 游戏《星际拓荒》中的主要种族之一 wiki
哈斯科技 2 指哈斯人的科技形式, 一个梗
挪麦人 游戏《星际拓荒》中的主要种族之一 wiki
搜图 3 搜索图片
自动命令 3 Vim Autocmd 的翻译 manual
插件名 3 插件的名字
云风 2 一名程序员 blog
无序的 2 "无序"的形容词形式, 现在首位为 "无须的"
他又不会 2
尾调优化 2 一种优化手段,使得在函数尾部递归调用函数不占用栈空间
尾调
星辰之怒 2 游戏《泰拉瑞亚》中的武器, 被调侃为性奴的谐音
星怒 2 星辰之怒
语法分析器 2 指计算机科学中对针对语法的 parser
分析器 2 计算机科学中 parser 的翻译
栈上 2 "栈" 指计算机科学中 stack
这样式 2 这样式儿, 中国北方方言.
你压根 2 首选为 "你呀跟", 不宜
元梦之星 蛋仔派对 2 近期热门手游
电池站 2 提供电池的站点
钟慢尺缩 2 广义相对论中因光速不变引发的时空效应
细菌学说 2 早期医学对细菌导致疾病的学说的称呼, 也可以理解为细菌学
不定长 2 不定长即 not fixed
我画的 2 短语
调库 2 调用库(library)
全局环境 2 global environment 的翻译
上值 2 upvalue 的翻译
套一层 2 现首选为 "逃逸曾"
纯净化 2 现首选为 "纯净话"
鸟科 2 现代鸟类所在的科
求幂 2 数学用语
一般认为 2 现首选为 "一般人为"
手搓 2 不使用工具, 徒手制造的行为, 游戏术语.
畅连 2 华为推出的网络通话应用程序
iDvel commented 7 months ago

桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。 胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。

两个是一个东西。 全国科学技术名词审定委员会使用「桑椹」,《现汉》推荐「桑葚」,都加上吧,不管了。

iDvel commented 7 months ago

我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意

「涵义」已被校对为「含义」,参考《现汉》。 「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。

iDvel commented 7 months ago

缺词:折衷

「折衷」也被校对为「折中」了,只保留了「折衷鹦鹉」。

gaboolic commented 7 months ago

我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意

「涵义」已被校对为「含义」,参考《现汉》。 「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。

日常口语中应该说的是「他说这话是什么意思」 如果在百度搜索中输入「他说这话是什么含意」 会被替换为已显示 “他说这话是什么含义” 的搜索结果 image

日常生活中 应该是「含义」的词频远高于「含意」,我几乎没见过「含意」这个词。 例如:小明认为这句话含义深刻,便按照老师要求记录了下来。

https://www.chinaqw.com/hwjy/2020/12-14/279581.shtml

《现代汉语词典》(第7版)指出,“含义”指词句等“所包含的意义”。《当代汉语词典》进一步指出,“含义”指“字、词、句等中所包含的意义”。例如:

  (1)这个字的含义是什么?

  (2)一个词可能有几个含义。(《现代汉语学习词典》)

  (3)要理解词语的确切含义。(《现代汉语规范词典》)

  (4)经过老师讲解,同学们才明白这个词的准确含义。(《现代汉语大词典》)

  对“含意”的用法,新出版的工具书如《现代汉语应用规范词典》等,有很好的归纳:“多指隐含的深意或言外之意。”也就是说,“含意”多用来指词句中含有的深意或言外之意。例如:

  (1)猜不透她这话的含意。(《现代汉语词典》)

  (2)她不知道对方那几句话里的真实含意。(《现代汉语大词典》)

  (3)你要仔细体味他这些话的含意。(《现代汉语规范词典》)

  (4)他的话里还有另一层含意。(《现代汉语应用规范词典》)

  所以,“含义”是指词语的基本意思,可以称之为“语文义”;而“含意”则指词句里的深意或言外之意。两者用法有所不同。

iDvel commented 7 months ago

这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。

gaboolic commented 7 months ago

我质疑的是含义跟含意的初始词频

---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:43 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)

这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

iDvel commented 7 months ago

「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。

gaboolic commented 7 months ago

我问含义和含意哪个用得多, 豆包的回复:

在现代汉语中,“含义”和“含意”都有一定的使用频率,但“含义”更为常见。

“含义”指词句等所包含的意义,强调的是词语、句子或事物本身所具有的内在意义。例如:“这个词的含义很深刻,需要仔细理解。”“这句话的含义是什么?”

“含意”也表示所包含的意思,但在使用上相对较少,通常用于文学作品或修辞中,强调的是隐含的、暗示的意义。例如:“这首诗的含意深远,令人回味无穷。”“他的话中含意着对未来的期待。”

总的来说,“含义”的使用范围更广泛,而“含意”则更侧重于表达微妙的、深层次的意义。不过,在具体语境中,两者的使用可能会有所差异。

需要注意的是,在一些情况下,这两个词可以互换使用,不会造成明显的语义差异。例如:“这句话的含义(含意)很丰富。”

选择使用“含义”还是“含意”,主要取决于个人的语言习惯和表达需要。在大多数情况下,使用“含义”可以满足一般的表达需求。但在一些特定的文学、修辞或强调隐含意义的语境中,使用“含意”可能会更加贴切。

文心一言回复:

在汉语中,“含义”和“含意”这两个词虽然都涉及到意义或内容的表达,但它们的用法和侧重点有所不同。

“含义”通常用来描述一个词、短语、句子或概念所蕴含的意义或内容。它更侧重于指事物或符号本身所代表或蕴含的意义,是一个比较直接和客观的概念。例如,在解释一个生词的含义时,我们通常会查找它的定义或解释它所代表的概念。

而“含意”则更多地强调言外之意或深层含义,它涉及到话语或文本背后的隐含意义、弦外之音或深层意图。它更侧重于表达者的主观意图和听读者的理解感受,是一个相对间接和主观的概念。例如,在文学作品中,作者可能会通过隐喻、象征等手法来表达深层的含意,需要读者去深入理解和体会。

在日常使用中,“含义”的使用频率相对较高,因为它更适用于解释和阐述事物的基本意义或内容。而“含意”则更多地用于文学、艺术等领域,以探讨和挖掘话语或文本的深层意义。

总的来说,“含义”和“含意”虽然都是表达意义的词语,但它们的用法和侧重点有所不同,需要根据具体的语境来选择使用哪个词。至于哪个用得多,实际上取决于具体的语境和领域。在一般性的解释和说明中,“含义”可能更为常见,而在文学和艺术作品的解读中,“含意”则可能更为适用。

---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:43 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)

这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

gaboolic commented 7 months ago

我质疑的不是用法,而是词频 含意 用到的太少太少了 口语中“他说这话有什么含意”会说“他说这话是什么意思” 而含义 用到的概率就太大了

---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:51 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)

「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

gaboolic commented 7 months ago

缺词:调通 https://www.cidianwang.com/cd/d/diaotong247877.htm

计算机领域也经常说接口能不能调通

gaboolic commented 7 months ago

初始字频:寂 寄 目前是寂>寄 预期寄>寂,因为寄用的更多,尤其是单字。寄个东西,寄个快递等等 寂 一般不会打单字,会打寂静 万籁俱寂,通常都是词组的形式

gaboolic commented 7 months ago

词频:便宜点和偏一点 ext词库: 便宜点 pian yi dian 100 腾讯词库: 偏一点 100

好像和我前面发过的李德金 离得近是一个问题,是不是可以把ext词库词频调的比腾讯词库高点?

gaboolic commented 7 months ago

「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。

我翻注释,翻到了“# 增加「含意」,与「含义」权重相同 # 含义:字词句具体的意义;含意:言语行为事件含有的意思(隐含的深意或言外之意)。😡” 我不反对加“含意”这个词,但是文件里并不是权重相同,目前含意341400 含义3414,应该掉转一下才对

gaboolic commented 7 months ago

删除错词:冰淇林

gaboolic commented 7 months ago

缺词:重绘

hegotit commented 7 months ago

缺词: 双闪 // 虽然有很多和双闪关联的词,但双闪本身不在任一词库里 谚文 // 指代韩语/朝鲜语的书写符号