Open gwisdomroof opened 1 month ago
在用IK分词器处理中文古籍时,发现它会自动过滤一些属于Unicode扩展区的生僻字,不知要如何解决?
以字符串“习𮊸𨻸𰄊𰶃”为例,如下:
期望这些汉字都能正确分词。
Versions: Elasticsearch 7.17.9(Docker)
新PR已经解决这个问题,请更新 https://github.com/infinilabs/analysis-ik/pull/1071 请验证后close这个issue
Description
在用IK分词器处理中文古籍时,发现它会自动过滤一些属于Unicode扩展区的生僻字,不知要如何解决?
Steps to reproduce
以字符串“习𮊸𨻸𰄊𰶃”为例,如下:
Expected behavior
期望这些汉字都能正确分词。
Environment
Versions: Elasticsearch 7.17.9(Docker)