Open fuxiaohui opened 10 months ago
这个是新版搜狗的本身缺陷,新版搜狗的词库,不需要拼音串,你试试只保留词组。
比如: 'fu'kuan'ma 付款码
修改为: 付款码
稍旧一点的版本还是支持拼音串的词库的,至于具体到多旧我就不是很清楚了,我一直在用8.9的版本。
不得不说搜狗官方的弱智行为把原来严谨的词库越改越难用了,我觉得搜狗的产品经理和设计师就是一坨屎。
搜狗识别新版词库的原理是这样的:假定有个人名叫区文文,拼音串OU WEN WEN,你导入只有区文文词库的时候,因为没有拼音串做进一步筛选确认,搜狗会默认第一次输入匹配的拼音串为词组,如果你输入QU WEN WEN,候选会有个区文文,此时会将 区文文 与 QU WEN WEN 绑定,你下次再输入 OU WEN WEN时,再也不会有区文文这个词组了,因为已经被QU WEN WEN绑定。
我在13.11版本的时候反馈过给官方技术人员,说意见已收集,我估计再也不会修复这个问题了,因为他们就是什么话都不听的。 现在14版本大搞PDF,不务正业,专搞些换肤什么的歪门邪道,你看看官方细胞词库也没人维护更新了。
这个是新版搜狗的本身缺陷,新版搜狗的词库,不需要拼音串,你试试只保留词组。
比如: 'fu'kuan'ma 付款码
修改为: 付款码
稍旧一点的版本还是支持拼音串的词库的,至于具体到多旧我就不是很清楚了,我一直在用8.9的版本。
不得不说搜狗官方的弱智行为把原来严谨的词库越改越难用了,我觉得搜狗的产品经理和设计师就是一坨屎。
搜狗识别新版词库的原理是这样的:假定有个人名叫区文文,拼音串OU WEN WEN,你导入只有区文文词库的时候,因为没有拼音串做进一步筛选确认,搜狗会默认第一次输入匹配的拼音串为词组,如果你输入QU WEN WEN,候选会有个区文文,此时会将 区文文 与 QU WEN WEN 绑定,你下次再输入 OU WEN WEN时,再也不会有区文文这个词组了,因为已经被QU WEN WEN绑定。
我在13.11版本的时候反馈过给官方技术人员,说意见已收集,我估计再也不会修复这个问题了,因为他们就是什么话都不听的。 现在14版本大搞PDF,不务正业,专搞些换肤什么的歪门邪道,你看看官方细胞词库也没人维护更新了。
方法好像失效了,我使用最新版14.5.0.9485,去掉拼音串导入的时候直接提示导入失败,保留拼音串的效果和issue提出者一样,虽然能导入但是词条数为0
方法好像失效了,我使用最新版14.5.0.9485,去掉拼音串导入的时候直接提示导入失败,保留拼音串的效果和issue提出者一样,虽然能导入但是词条数为0
我重新试了下,方法没有失效,14.6是可以导入成功的,注意词库txt编码不能是utf8,导入中文会乱码,需要为ANSI或者GBK。
虽然导入没有报错,但是词条为0