languagetool-org / languagetool

Style and Grammar Checker for 25+ Languages
https://languagetool.org
GNU Lesser General Public License v2.1
12.49k stars 1.4k forks source link

[ru]PNN on end has huge amount of false positives #513

Closed kostyfisik closed 8 years ago

kostyfisik commented 8 years ago

They are rather simialr, like как и он/она как он/она чем он/она кто он/она кто же он/она or VB:.*:Masc:.* он VB:.*:Fem:.* она

tatoeba-result-ru-PNN_ON_END.txt

yakovru commented 8 years ago

https://www.languagetool.org/regression-tests/20160825/result_ru_20160825.html

yakovru commented 8 years ago

http://zorych.livejournal.com/690556.html

kostyfisik commented 8 years ago

For prep_on_end a good antipattern can be

token regexp  [IVXLCM]*|[0-9]*
token в
token . 

as soon as it if valid to put XX в. to the end of the sentence.

another antipattern is

token case_sensitive С|В|К|У
token .

(e.g. В. Г. Белинский)

kostyfisik commented 8 years ago

For PNN_on_end - I believe that LT should not recommend aginst widely used patterns found in tatoeba base. I think that is can possibly be found few examples in tatoeba, then PNN on end is really a style error, however, this should be few cases, not hundreds.

kostyfisik commented 8 years ago

Few PPN on end left

Only these rules are enabled: [PNN_ON_END] All spelling rules are disabled Working on: ../tatoeba-sentences-rus.csv Sentence limit: no limit Error limit: 100

Title: 1.) Line 1, column 32, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. "Ты ужасный человек, - сказала она. - Ты никогда не помнишь моих слов". ^^^^

Title: 1.) Line 1, column 51, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. ..."Домашнее задание я не выполнил! — весело крикнул он. — Некогда было". ^^^

Title: 1.) Line 1, column 29, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. «Тьфу, пропасть!» — говорит она. — «И тот дурак, кто слушает людских всех врак: вс... ^^^^

Title: 1.) Line 1, column 126, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. .....» — «А, так ты её знал... Хмм..» — пробормотала она. «И пока мы болтали с ней о всём на свете, о глупц... ^^^^

Title: 1.) Line 1, column 26, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. "Бедняжка! — воскликнула она. — Что я могу сделать для вас?" ^^^^

Title: 1.) Line 1, column 35, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. «Милая моя куколка! — воскликнула она. — Спасла ты меня от моей беды. Осталось мне тепер... ^^^^

Title: 1.) Line 1, column 88, Rule ID: PNN_ON_END[1] Message: Местоимение в конце предложения. ...ой билет. "Но это же детский билет"! - настаивает он. "Теперь вы видите, сколько мне пришлось ждать пое... ^^^
Russian: 7 total matches Russian: ø0.00 rule matches per sentence

yakovru commented 8 years ago

I think the best solution is set default off this rule.

kostyfisik commented 8 years ago

Switching off the rule by default is not a solution. It should be improved with an antipattern (or several antipatterns), the most obvious is to check the sentence for direct speech. I believe this can dramatically reduce the number of false positives and it can be again switch on by default.

yakovru commented 8 years ago

Fixed.