studyzy / imewlconverter

”深蓝词库转换“ 一款开源免费的输入法词库转换程序
GNU General Public License v3.0
7.91k stars 646 forks source link

导出的搜狗词库txt,无法导入到搜狗输入法 #296

Open fuxiaohui opened 10 months ago

fuxiaohui commented 10 months ago

image 虽然导入没有报错,但是词条为0

kidzgy commented 8 months ago

这个是新版搜狗的本身缺陷,新版搜狗的词库,不需要拼音串,你试试只保留词组。

比如: 'fu'kuan'ma 付款码

修改为: 付款码

稍旧一点的版本还是支持拼音串的词库的,至于具体到多旧我就不是很清楚了,我一直在用8.9的版本。

不得不说搜狗官方的弱智行为把原来严谨的词库越改越难用了,我觉得搜狗的产品经理和设计师就是一坨屎。

搜狗识别新版词库的原理是这样的:假定有个人名叫区文文,拼音串OU WEN WEN,你导入只有区文文词库的时候,因为没有拼音串做进一步筛选确认,搜狗会默认第一次输入匹配的拼音串为词组,如果你输入QU WEN WEN,候选会有个区文文,此时会将 区文文 与 QU WEN WEN 绑定,你下次再输入 OU WEN WEN时,再也不会有区文文这个词组了,因为已经被QU WEN WEN绑定。

我在13.11版本的时候反馈过给官方技术人员,说意见已收集,我估计再也不会修复这个问题了,因为他们就是什么话都不听的。 现在14版本大搞PDF,不务正业,专搞些换肤什么的歪门邪道,你看看官方细胞词库也没人维护更新了。

hexoctal-sur commented 4 months ago

这个是新版搜狗的本身缺陷,新版搜狗的词库,不需要拼音串,你试试只保留词组。

比如: 'fu'kuan'ma 付款码

修改为: 付款码

稍旧一点的版本还是支持拼音串的词库的,至于具体到多旧我就不是很清楚了,我一直在用8.9的版本。

不得不说搜狗官方的弱智行为把原来严谨的词库越改越难用了,我觉得搜狗的产品经理和设计师就是一坨屎。

搜狗识别新版词库的原理是这样的:假定有个人名叫区文文,拼音串OU WEN WEN,你导入只有区文文词库的时候,因为没有拼音串做进一步筛选确认,搜狗会默认第一次输入匹配的拼音串为词组,如果你输入QU WEN WEN,候选会有个区文文,此时会将 区文文 与 QU WEN WEN 绑定,你下次再输入 OU WEN WEN时,再也不会有区文文这个词组了,因为已经被QU WEN WEN绑定。

我在13.11版本的时候反馈过给官方技术人员,说意见已收集,我估计再也不会修复这个问题了,因为他们就是什么话都不听的。 现在14版本大搞PDF,不务正业,专搞些换肤什么的歪门邪道,你看看官方细胞词库也没人维护更新了。

方法好像失效了,我使用最新版14.5.0.9485,去掉拼音串导入的时候直接提示导入失败,保留拼音串的效果和issue提出者一样,虽然能导入但是词条数为0

kidzgy commented 4 months ago

方法好像失效了,我使用最新版14.5.0.9485,去掉拼音串导入的时候直接提示导入失败,保留拼音串的效果和issue提出者一样,虽然能导入但是词条数为0

2024-06-24_103229 2024-06-24_103149 2024-06-24_103135

我重新试了下,方法没有失效,14.6是可以导入成功的,注意词库txt编码不能是utf8,导入中文会乱码,需要为ANSI或者GBK。