infinilabs / analysis-ik

🚌 The IK Analysis plugin integrates Lucene IK analyzer into Elasticsearch and OpenSearch, support customized dictionary.
Apache License 2.0
16.48k stars 3.27k forks source link

英文和数字分词问题 #1070

Open miaomiaojie1 opened 4 weeks ago

miaomiaojie1 commented 4 weeks ago

例如:ccc100-n2-h3,使用ik_max_word分词的结果是ccc100-n2-h3 ccc 100 n 2 h 3 ,将n2 h3添加了主词库之后,分词的结果是ccc100-n2-h3 ccc 100 n2 n 2 h3 h 3 ,我希望的结果是ccc100 n2 h3,这种添加主词之后n2和h3为什么还是分开了? 再如:logger V300r200c20spc300 使用ik_max_word分词的结果是 logger v300r200c20spc300 v 300 r 200 c 20 spc 300 我希望的结果是logger V300 r200 c20 spc300,这种用自定义的分词策略能实现吗,会产生歧义吗? 再如:aicc 12.300.4,使用ik_max_word分词的结果是aicc 12.300.4,我希望的结果是aicc 12 12.300 12.300.4,这种ik有这样的能力吗?