Open iDvel opened 9 months ago
「豉 shi」「箐 jing」放大字表了。 笭箐,竹字头应该是草字头。
应该就是「涴yuan市镇」,参考《现汉》、《现规》。 没必要保留「剿袭」,语言可以很浪漫,文字规范还是越严谨越好,已快绝迹的异形词最好还是不要用了。
抖音上当地人都念 yuan,应该是没异议。
主要用的是 蔄山 和 苘山 也读 man shan 这两个 现在 也有一些写𬜬山 但是很少,主要是 前面两个,公文一般是蔄山, 非正式公文一般写苘山 的多
或许将 苘山 独读 man shan 的 只有 本地人
「𬜬山」、「蔄山」都写上得了。 「苘qing」应该是误写,百度百科是一点都不能信的。
汉字在这种规范上老坑爹了。 类推简化了「蔄man」→「𬜬man」,十多年过去了,字典还是「𬜬」,当地人包括当地政府还是用「蔄」。 规范出了没人用,也没有顺从当地习惯更改规范,最后就是混用,摆烂,也没人管。
整理出部分错音词条放到附件里 rime-ice_zhuyin-err.txt
打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现
唵嘛呢叭咪 唵嘛呢嘛呢叭咪吽
唵并没有 ong 这个音,汉语里面也没有 ong 音节的字。 我看好多电视剧里就念 an 的; 或者按外来音,注音为 wong,之类, 或者直接注在英文,或者中英混合词典中
(注 ong 音,会导致编译为词典包 pack 的时候,由于缺少这个音节,报错并 drop 掉这个词汇)
「唵嘛呢叭咪吽」按字典的音来注吧, an ma ni ba mi hong http://www.jiaodui.com/bbs/read.php?tid=10782 目前也有简单的方法,可输入「六字真言」或「六字大明咒」,通过 emoji 来输出。
打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现
默认的纠错里有些纠错是这样的,lui 会纠错为 liu(给 liu 派生 lui),rne 会纠错为 ren,经常全拼简拼混输的话可以删除那一部分。 https://github.com/iDvel/rime-ice/blob/6d438fb8f4de5e54e0fb2e1daf0635d729277493/rime_ice.schema.yaml#L474-L549
刚更新完怎么感觉都错乱了……从辅音p开始好像……
刚更新完怎么感觉都错乱了……从辅音p开始好像……
你是开了智能纠错吗?你用默认配置试试。
刚更新完怎么感觉都错乱了……从辅音p开始好像……
你是开了智能纠错吗?你用默认配置试试。
啊我都不知道咋开……只是替换了这次更新的文件……之前都没问题的。
不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。 直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。
不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。 直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。
啊啊是我的问题,加sort: by_weight的时候前面多了个空格……现在正常了。不好意思啊!
还是就这样吧,我试了一下大小是一样的,速度好像也没多大差距。 我把很多同义多音字如「熟、血」之类的也扔到 tencent 词库,让 Rime 自动注了。 平时加词我也是扔到 tencent 里了,不用写注音,方便一点。
https://github.com/iDvel/rime-ice/issues/703
词库里很多 “犭更犬”,是否要改为 “㹴犬”
尝试使用雾凇拼音来开发其他输入方案的过程中,发现部分词组的注音中某个字的读音没有包含在它单独的读音中:
dropping entry '陈寅恪' with invalid syllable: que
dropping entry '放饭流歠' with invalid syllable: chu
dropping entry '解州' with invalid syllable: hai
dropping entry '解州关帝庙' with invalid syllable: hai
dropping entry '解州镇' with invalid syllable: hai
dropping entry '亠部' with invalid syllable: jiong
dropping entry '擖哧' with invalid syllable: ka
dropping entry '肋脦' with invalid syllable: de
dropping entry '艋舺' with invalid syllable: jia
dropping entry '将进酒' with invalid syllable: qiang
dropping entry '青玉案' with invalid syllable: wan
dropping entry '青玉案元夕' with invalid syllable: wan
dropping entry '通什镇' with invalid syllable: za
dropping entry '菶菶萋萋' with invalid syllable: yong
dropping entry '鲗鱼涌' with invalid syllable: ze
dropping entry '槁项黄馘' with invalid syllable: xu
dropping entry '黄馘槁项' with invalid syllable: xu
dropping entry '尨眉皓发' with invalid syllable: rong
dropping entry '泥而不滓' with invalid syllable: nie
这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?
tencent 这几个词没有相应的拼音,注不出来
E20240301 15:00:13.292201 232383 entry_collector.cc:135] Encode failure: '李到𬀪'.
E20240301 15:00:14.678122 232383 entry_collector.cc:135] Encode failure: '薄护尾𬶏'.
E20240301 15:00:14.679606 232383 entry_collector.cc:135] Encode failure: '薄身罗马诺𬶋'.
商贷 商转公
缺少“藤壶” 然而腾讯词库有“鹅颈藤壶”
是否可以把已经存在于8105.dict的字从41448中去掉
求收录“善茬” “不是善茬”在词库里,“善茬”不在
挼 增加rua的音
这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?
这个不用了,词库里很多字表没有的字,注上音就行了。
是否可以把已经存在于8105.dict的字从41448中去掉
重复的字不影响部署,先挂载的权重生效,留着也可以单独使用。
问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「bao
」还是「pu
」?目前只能打「bao
」才能打出这个词,是否需要加上「bao
」这个注音?
问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「
bao
」还是「pu
」?目前只能打「bao
」才能打出这个词,是否需要加上「bao
」这个注音?
「曝尸」将换成「暴尸」。参考 http://www.jiaodui.org/bbs/read.php?tid=18496
词库中有2组词语: 体外受精,体外授精;人工授精,人工受精。 实际上只有 “体外受精,人工授精”是正确的。没有 “体外授精,人工受精”这2个词。
桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。 胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。
关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到
类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高
关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到
类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意 污蔑 诬蔑
词频问题: 李德金 离得近 看了下李德金在腾讯词库,离得近在ext词库,词频都是100,是不是可以把ext词库词频调高点?
缺词:折衷
他问的 | 5 | 短语 |
时空画师 | 4 | 科幻小说, 曾获雨果奖 |
这是啥意思 | 4 | 短语 |
下降部 | 4 | 字体设计概念, 如 yg 底部 |
上升部 | 4 | 字体设计概念, 与下降部相对 |
我真服了 | 4 | 短语 |
哈斯人 | 4 | 游戏《星际拓荒》中的主要种族之一 wiki |
哈斯科技 | 2 | 指哈斯人的科技形式, 一个梗 |
挪麦人 | 游戏《星际拓荒》中的主要种族之一 wiki | |
搜图 | 3 | 搜索图片 |
自动命令 | 3 | Vim Autocmd 的翻译 manual |
插件名 | 3 | 插件的名字 |
云风 | 2 | 一名程序员 blog |
无序的 | 2 | "无序"的形容词形式, 现在首位为 "无须的" |
他又不会 | 2 | |
尾调优化 | 2 | 一种优化手段,使得在函数尾部递归调用函数不占用栈空间 |
尾调 | ||
星辰之怒 | 2 | 游戏《泰拉瑞亚》中的武器, 被调侃为性奴的谐音 |
星怒 | 2 | 星辰之怒 |
语法分析器 | 2 | 指计算机科学中对针对语法的 parser |
分析器 | 2 | 计算机科学中 parser 的翻译 |
栈上 | 2 | "栈" 指计算机科学中 stack |
这样式 | 2 | 这样式儿, 中国北方方言. |
你压根 | 2 | 首选为 "你呀跟", 不宜 |
元梦之星 蛋仔派对 | 2 | 近期热门手游 |
电池站 | 2 | 提供电池的站点 |
钟慢尺缩 | 2 | 广义相对论中因光速不变引发的时空效应 |
细菌学说 | 2 | 早期医学对细菌导致疾病的学说的称呼, 也可以理解为细菌学 |
不定长 | 2 | 不定长即 not fixed |
我画的 | 2 | 短语 |
调库 | 2 | 调用库(library) |
全局环境 | 2 | global environment 的翻译 |
上值 | 2 | upvalue 的翻译 |
套一层 | 2 | 现首选为 "逃逸曾" |
纯净化 | 2 | 现首选为 "纯净话" |
鸟科 | 2 | 现代鸟类所在的科 |
求幂 | 2 | 数学用语 |
一般认为 | 2 | 现首选为 "一般人为" |
手搓 | 2 | 不使用工具, 徒手制造的行为, 游戏术语. |
畅连 | 2 | 华为推出的网络通话应用程序 |
桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。 胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。
两个是一个东西。 全国科学技术名词审定委员会使用「桑椹」,《现汉》推荐「桑葚」,都加上吧,不管了。
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意
「涵义」已被校对为「含义」,参考《现汉》。 「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。
缺词:折衷
「折衷」也被校对为「折中」了,只保留了「折衷鹦鹉」。
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的: 含义 寒意 涵义 含意
「涵义」已被校对为「含义」,参考《现汉》。 「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。
日常口语中应该说的是「他说这话是什么意思」 如果在百度搜索中输入「他说这话是什么含意」 会被替换为已显示 “他说这话是什么含义” 的搜索结果
日常生活中 应该是「含义」的词频远高于「含意」,我几乎没见过「含意」这个词。 例如:小明认为这句话含义深刻,便按照老师要求记录了下来。
https://www.chinaqw.com/hwjy/2020/12-14/279581.shtml
《现代汉语词典》(第7版)指出,“含义”指词句等“所包含的意义”。《当代汉语词典》进一步指出,“含义”指“字、词、句等中所包含的意义”。例如:
(1)这个字的含义是什么?
(2)一个词可能有几个含义。(《现代汉语学习词典》)
(3)要理解词语的确切含义。(《现代汉语规范词典》)
(4)经过老师讲解,同学们才明白这个词的准确含义。(《现代汉语大词典》)
对“含意”的用法,新出版的工具书如《现代汉语应用规范词典》等,有很好的归纳:“多指隐含的深意或言外之意。”也就是说,“含意”多用来指词句中含有的深意或言外之意。例如:
(1)猜不透她这话的含意。(《现代汉语词典》)
(2)她不知道对方那几句话里的真实含意。(《现代汉语大词典》)
(3)你要仔细体味他这些话的含意。(《现代汉语规范词典》)
(4)他的话里还有另一层含意。(《现代汉语应用规范词典》)
所以,“含义”是指词语的基本意思,可以称之为“语文义”;而“含意”则指词句里的深意或言外之意。两者用法有所不同。
这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。
我质疑的是含义跟含意的初始词频
---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:43 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)
这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。
我问含义和含意哪个用得多, 豆包的回复:
在现代汉语中,“含义”和“含意”都有一定的使用频率,但“含义”更为常见。
“含义”指词句等所包含的意义,强调的是词语、句子或事物本身所具有的内在意义。例如:“这个词的含义很深刻,需要仔细理解。”“这句话的含义是什么?”
“含意”也表示所包含的意思,但在使用上相对较少,通常用于文学作品或修辞中,强调的是隐含的、暗示的意义。例如:“这首诗的含意深远,令人回味无穷。”“他的话中含意着对未来的期待。”
总的来说,“含义”的使用范围更广泛,而“含意”则更侧重于表达微妙的、深层次的意义。不过,在具体语境中,两者的使用可能会有所差异。
需要注意的是,在一些情况下,这两个词可以互换使用,不会造成明显的语义差异。例如:“这句话的含义(含意)很丰富。”
选择使用“含义”还是“含意”,主要取决于个人的语言习惯和表达需要。在大多数情况下,使用“含义”可以满足一般的表达需求。但在一些特定的文学、修辞或强调隐含意义的语境中,使用“含意”可能会更加贴切。
文心一言回复:
在汉语中,“含义”和“含意”这两个词虽然都涉及到意义或内容的表达,但它们的用法和侧重点有所不同。
“含义”通常用来描述一个词、短语、句子或概念所蕴含的意义或内容。它更侧重于指事物或符号本身所代表或蕴含的意义,是一个比较直接和客观的概念。例如,在解释一个生词的含义时,我们通常会查找它的定义或解释它所代表的概念。
而“含意”则更多地强调言外之意或深层含义,它涉及到话语或文本背后的隐含意义、弦外之音或深层意图。它更侧重于表达者的主观意图和听读者的理解感受,是一个相对间接和主观的概念。例如,在文学作品中,作者可能会通过隐喻、象征等手法来表达深层的含意,需要读者去深入理解和体会。
在日常使用中,“含义”的使用频率相对较高,因为它更适用于解释和阐述事物的基本意义或内容。而“含意”则更多地用于文学、艺术等领域,以探讨和挖掘话语或文本的深层意义。
总的来说,“含义”和“含意”虽然都是表达意义的词语,但它们的用法和侧重点有所不同,需要根据具体的语境来选择使用哪个词。至于哪个用得多,实际上取决于具体的语境和领域。在一般性的解释和说明中,“含义”可能更为常见,而在文学和艺术作品的解读中,“含意”则可能更为适用。
---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:43 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)
这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
我质疑的不是用法,而是词频 含意 用到的太少太少了 口语中“他说这话有什么含意”会说“他说这话是什么意思” 而含义 用到的概率就太大了
---Original--- From: @.> Sent at: 2024年3月18日(Mon) Evening11:51 To: @.>; Cc: @.**@.>; Subject: Re: [iDvel/rime-ice] 词库贡献 (Issue #666)
「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
缺词:调通 https://www.cidianwang.com/cd/d/diaotong247877.htm
计算机领域也经常说接口能不能调通
初始字频:寂 寄 目前是寂>寄 预期寄>寂,因为寄用的更多,尤其是单字。寄个东西,寄个快递等等 寂 一般不会打单字,会打寂静 万籁俱寂,通常都是词组的形式
词频:便宜点和偏一点 ext词库: 便宜点 pian yi dian 100 腾讯词库: 偏一点 100
好像和我前面发过的李德金 离得近是一个问题,是不是可以把ext词库词频调的比腾讯词库高点?
「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。
我翻注释,翻到了“# 增加「含意」,与「含义」权重相同 # 含义:字词句具体的意义;含意:言语行为事件含有的意思(隐含的深意或言外之意)。😡” 我不反对加“含意”这个词,但是文件里并不是权重相同,目前含意341400 含义3414,应该掉转一下才对
删除错词:冰淇林
缺词:重绘
缺词: 双闪 // 虽然有很多和双闪关联的词,但双闪本身不在任一词库里 谚文 // 指代韩语/朝鲜语的书写符号
目前词库已经过脚本检查及大量人工校对,但难免有疏漏。 如果有词汇缺失、错音、错字、初始排序不合理的问题,可以直接 PR 或在此留言。