houbb / sensitive-word

👮‍♂️The sensitive word tool for java.(敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。)
https://houbb.github.io/opensource/sensitive-word
Apache License 2.0
4.36k stars 588 forks source link

文本额外匹配与末尾相同的字 #65

Closed a773860916 closed 3 months ago

a773860916 commented 3 months ago

比如我有个敏感词库,里面有“调情”这个敏感词。当文本内容是“调情情趣内衣”的时候,返回涉及的敏感词列表中却是“调情情”而不是“调情”。

houbb commented 3 months ago

这是 repeat 特性,可以关闭。