wulijun / php-ext-trie-filter

php extension for spam word filter based on Double-Array Trie tree, it can detect if a spam word exists in a text message. 关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。
514 stars 167 forks source link

英文敏感词的问题 #2

Open Mr-jing opened 9 years ago

Mr-jing commented 9 years ago

比如,有个敏感词为sm,正常的单词small,那么其中的sm会被认为是脏词。

我尝试把敏感词改为sm(空格)(空格)sm(空格)sm(空格)也还是不行。

bytehello commented 8 years ago

哪怕是 “操作” or “操场”这样的,“操”也会被当作脏词

Mr-jing commented 8 years ago

@gechanghang 嗯,确实。我后面是对库返回的结果做了校验,英文的处理了一下。如果返回脏词是英文字母,我会在原句中检查该词前后是不是字母,如果是字母,就当为单词的一部分,不作为脏词了。 一年多了,感慨一下时间过得真快啊

GabyCheng commented 3 years ago

@gechanghang 嗯,确实。我后面是对库返回的结果做了校验,英文的处理了一下。如果返回脏词是英文字母,我会在原句中检查该词前后是不是字母,如果是字母,就当为单词的一部分,不作为脏词了。 一年多了,感慨一下时间过得真快啊

检查该词前后是不是字母会不会不好,我找不到别人是怎么处理的,我看到有人去调词库,判断它是否是一个单词