Closed VimWei closed 3 years ago
目前计划是
本 issue 的目的是收集靠谱的词库来源,靠谱的来源要满足
无版权问题(必须明确声明允许自由使用,处理和分发) 词库内容靠谱(比如某论坛转发的找不到原作者的无法维护的词库就不行) 方便程序进行处理(比如 pdf,网页,就不行)
欢迎各位在此分享合适的词库。
默认词库来自于 https://github.com/skywind3000/ECDICT 生成工具 https://github.com/BlindingDark/rime_easy_eng_dict 该工具默认导出的词为带有词频 或 长度小于等于 9 的不包含数字的词
@VimWei 尽量发些无版权疑问的,程序能处理的词库来源,比如一些大学使用的学习资料,我们应该是无权直接拿来用的,而且一些是 pdf 格式的,wiki 连接之类的,这些都不方便进行处理。麻烦整理一个筛选过后的列表。
@VimWei 尽量发些无版权疑问的,程序能处理的词库来源,比如一些大学使用的学习资料,我们应该是无权直接拿来用的,而且一些是 pdf 格式的,wiki 连接之类的,这些都不方便进行处理。麻烦整理一个筛选过后的列表。
恩,上述纯粹就是我的浏览器书签导出的,确实未作整理。不过,我们没有必要把所有可用的资料都处理成现成的词库。
建议:给出一两个典型的词库案例,提供使用自定义词库的机制、如何自定义词库的教程等,其他的就让用户自己想办法解决即可。
使用自定义词库的机制、如何自定义词库的教程
普通用户没有这个能力和精力。
词库是面向最终使用者的,本 issue 目的是收集靠谱的词库来源。靠谱的来源要满足
纯粹开源、无版权的资料,确实少之又少。使用效果也不好。
还是忽略上述资料吧,它们仅作为解释说明:什么是词频语料库、什么是专业词库。
PS:使用Rime的用户,估计都喜欢折腾。。。不能定义为普通用户。。。我曾经下载过,放弃了,这两天才又捡起来。。。
纯粹开源、无版权的资料,确实少之又少
ECDICT 是我能找到的最靠谱的开源词库了,可以围绕它来做几个裁剪和修补。
wiktionary: https://en.wiktionary.org/
Wiktionary is a wiki, which means that you can edit it, and all the content is dual-licensed under both the Creative Commons Attribution-ShareAlike 3.0 Unported License and the GNU Free Documentation License.
虽然原版是基于网页的,但已有不少基于此的mdx词典,应该比较容易转换。
rime是一个很好的输入法程序,但也存在一些较大的不足。其中一个就是词库的建立和精选。 提高词库的效率有两个两个方法,我需要的在里面,我不需要的不在里面。只关注其一,如加大词库数量无法提高词库的效率。 现在rime似乎无法删除一些已有词库里的词(其宣称的ctr+del,shift+del,ctr+k可以删除自造词,无法删除一些词库里的词,甚止降低已有词库权重也难以做到。降低已有词库权重偶而可以做到,很不稳定)。有些词一般用户用不到,如果从词库删除可以加大输入效率。能否对原有程序进行修改,使得可以删除任意词组。
解决词库里删除词语问题,也可以让用户删除一些个人隐私词语,共享出个人词库,从而精炼出好的词库。
能否对原有程序进行修改
不在本 issue 讨论范围之内。请去 rime 那边反馈意见。
不过你可以用文本编辑器直接修改词库。
目前词库只有一个,其中的词条完整性比较好,但也意味着数量比较多,这种设计会影响如下情形使用体验:
鉴于上述原因,建议考虑将词库分级(通用性词库,可按权威词频统计信息来分级)、分类(字母长短、专业门类),并有配置参数可以让用户按需加载,更进一步则是提供相应的词库制作指引和工具,让用户可以自行定制个性化词库。
参考资料附后跟帖: