infinilabs / analysis-ik

🚌 The IK Analysis plugin integrates Lucene IK analyzer into Elasticsearch and OpenSearch, support customized dictionary.
Apache License 2.0
16.48k stars 3.27k forks source link

格式化代码,增加国标生僻字支持等 #1029 #1030

Closed lizongbo closed 10 months ago

lizongbo commented 10 months ago

1.Character对象实力全部使用缓存机制。 2.增加国标GB18030-2022的生僻字分词。 3.引入maven checkstyle插件,格式化代码,确保后续代码格式风格一致。 4.升级依赖组件版本

1029

medcl commented 10 months ago

文件改动比较多,我这两天抽空 review 一下,如果可以的话,一个 PR 一个小的功能调整或改动。

lizongbo commented 10 months ago

分开commit提交的,前面是加特性,后面想着把代码格式统一,就格式化了。

medcl commented 10 months ago

重复的词典文件就不要添加了。 国标生僻字支持的可以单独提个 PR 么?

lizongbo commented 10 months ago

重复的词典文件就不要添加了。 国标生僻字支持的可以单独提个 PR 么?

加重复字典是到测试资源目录,方便运行单元测试用例用的。 github好像不支持单独提交某个commit来做pr,加国标生僻字支持的逻辑很简单,主要在 https://github.com/medcl/elasticsearch-analysis-ik/pull/1030/commits/f6b76dbd325cc11f1bce0c911ddd0c945b44dfb6#diff-58959327ff2ade084f950005c3dc5379f8dc9776ef5e6c7bb6a13ac17d26a405

你需要的化直接参考复制过去就可以了,pr就不用合并了,我维护我自己的代码即可。

medcl commented 10 months ago

好的,也谢谢你的 PR。