houbb / sensitive-word

👮‍♂️The sensitive word tool for java.(敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。)
https://houbb.github.io/opensource/sensitive-word
Apache License 2.0
4.1k stars 545 forks source link

Update WordResultConditionEnglishWordMatch.java #47

Closed vonxing closed 6 months ago

vonxing commented 6 months ago

要先判断当前字符前后的字符是否为英文后再判断当前字符是否为英文不然会出现以下bug International Congress会命中关键字national Congress这个判断就属于误判了。另外就是判断后一个字符是否为英文时 直接取endindex的字符就是后一个字符了,再+1就取错位置了

houbb commented 6 months ago

具体给一下具体的测试用例 我验证下原来的是否存在问题。