infinilabs / analysis-ik

🚌 The IK Analysis plugin integrates Lucene IK analyzer into Elasticsearch and OpenSearch, support customized dictionary.
Apache License 2.0
16.48k stars 3.27k forks source link

支持由两个char组成的Surrogate Pair(比如生僻字、自造字、emoji等) #1071

Closed yangzhongke closed 2 weeks ago

yangzhongke commented 3 weeks ago

对于由两个char组成的Surrogate Pair(比如生僻字、自造字、emoji等)进行支持。 测试用字符串: "又見菩\uDB84\uDD2E,處林放光,濟地獄苦,令入佛\uDB84\uDC01。又見佛子\uD83D\uDE00\uD83D\uDE43龟龙麟凤剃\uDB84\uDC97鬚髪。或見菩\uDB84\uDCA7做张做势牛哈"

这个PR可以解决如下几个issue: 1)https://github.com/infinilabs/analysis-ik/issues/1067 2)https://github.com/infinilabs/analysis-ik/issues/1068 3) https://github.com/infinilabs/analysis-ik/issues/718

medcl commented 3 weeks ago

@yangzhongke 你好,谢谢你提交 PR,测试的部分可以换成单元测试来进行么?

yangzhongke commented 3 weeks ago

@medcl
谢谢回复,目前项目里还没有单元测试吧?您对于单元测试有什么建议?比如代码放到哪个文件夹下?是否启用github action实现PR自动运行单元测试? 如果确实还没有单元测试的话,我能否先把这个Test.java从这个PR中删掉,然后先把这个PR合并。 然后我再创建一个单独的PR来增加单元测试以及GitHub Actions?

yangzhongke commented 3 weeks ago

@medcl Test.java已经删除,准备把它转换为单元测试,然后放到单独的PR中提交

medcl commented 2 weeks ago

Thanks~