languagetool-org / languagetool

Style and Grammar Checker for 25+ Languages
https://languagetool.org
GNU Lesser General Public License v2.1
11.82k stars 1.38k forks source link

[nl] undetected mistake #7156

Open ghost opened 1 year ago

ghost commented 1 year ago

Over 10 jaar is /de/ plantaardig de standaard in fastfood.

The first 'de' is wrong, and should be discarded. 'De BNW:STL:ONV de' is easy to detect and 'always' wrong.

Possible rule:

<rule id="DE_X_DE" name="De te veel">
    <antipattern><token>de</token><token regexp="yes">zijn|van</token></antipattern>
    <pattern>
        <marker>
            <token>de</token>
            <token><exception postag_regexp="yes" postag="ZNW.*|UNKNOWN|ENM.*|.*RNG.*|.*VRB|VRZ"/></token>
        </marker>
        <token>de</token>
    </pattern>
    <message>Hier staat vast een 'de' te veel: <suggestion>\2</suggestion>.</message>
    <example correction="plantaardig">Over 10 jaar is <marker>de plantaardig</marker> de standaard in fastfood..</example>
</rule>
ghost commented 1 year ago

Wrong 'de zijn' appeared in thectest output quite a lot:.

<rule id="DE_ZIJN" name="De zijn">
    <pattern>
        <token>de</token>
        <token>zijn</token>
    </pattern>
    <message>Dit is een vreemde woordcombinatie. Bedoelt u <suggestion>deze \2</suggestion>?</message>
    <example correction="Deze zijn"><marker>De zijn</marker> vreemd.</example>
</rule>