rin-nas / php-censure

Определение наличия мата (нецензурных слов) в тексте, матотест на PHP
47 stars 31 forks source link

Некорректные срабатывания #3

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
В небе вон луна такая молодая, что ее без 
спутников и отпускать рискованно.

Преобразуется в 

В н***е вон луна такая молодая, что ***ез 
спутников и отпускать рискованно.

Original issue reported on code.google.com by MikhailK...@gmail.com on 22 Dec 2011 at 8:09

GoogleCodeExporter commented 8 years ago
У себя решил комментированием этого 
фрагмента (который убирает повторяющиеся 
символы):

                $s = preg_replace('/(  [\xd0\xd1][\x80-\xbf] \x20?  #optimized [а-я]
                             | [a-z\d] \x20?
                             ) \\1+
                           /sxSX', '$1', $s);

Original comment by MikhailK...@gmail.com on 22 Dec 2011 at 8:15

GoogleCodeExporter commented 8 years ago
Еще ложное срабатывание (с 
закоментированным приведенным выше 
фрагментом):

Я полностью поддерживаю разделение церкви 
и государства. Так как оба эти учреждения 
ебут нас достаточно сами по себе.
>
Я полностью поддерживаю разделение церкви 
и государства. Так как оба эти учреждения 
***ут нас достаточно сами по с***е.

Если матное слово убрать, то "себе" остается 
без изменений.

Original comment by MikhailK...@gmail.com on 24 Dec 2011 at 7:44