Sprakbanken / grew_ndt2ud

2 stars 0 forks source link

L3 Syntax too-many-subjects (183) #46

Closed Ingerid closed 1 year ago

Ingerid commented 1 year ago

Feilmelding i valideringsrapporten: "Node has multiple subjects not subtyped as ':outer': [1, 4]. Outer subjects are allowed if a clause acts as the predicate of another clause."

Ingerid commented 1 year ago

Resultat av å validere grew-konverteringen etter at :outer blir lagt til i commit https://github.com/Sprakbanken/grew_ndt2ud/pull/50/commits/a382bd638fd447e365e56f45f2ff516687b58a20:

Metadata errors: 15696 Syntax errors: 4939 FAILED with 20635 errors

Different types of errors: L2 Metadata missing-sent-id 15696 L3 Syntax rel-upos-mark 2671 L3 Syntax right-to-left-appos 1328 L3 Syntax rel-upos-advmod 359 L3 Syntax upos-rel-punct 156 L3 Syntax punct-is-nonproj 120 L3 Syntax rel-upos-punct 88 L3 Syntax punct-causes-nonproj 86 L2 Syntax 0-is-not-root 52 L3 Syntax too-many-subjects 48 L3 Syntax rel-upos-cop 18 L3 Syntax leaf-aux-cop 7 L3 Syntax rel-upos-aux 6 Name: errortype, dtype: int64

Antall too-many-subjects-feil går ned fra 183 -> 48 (135 blir fikset). En rask visuell gjennomgang i Malteval viste at de fleste tilfellene stemmer med retningslinjene for nsubj:outer, cop og nusbj på samme predikat. De resterende feilene må jeg fortsatt undersøke.

Eksempelsetning i PRen

Ingerid commented 1 year ago

Ett eksempel der regelen ikke har fungert:

image

"det" skulle ikke vært nsubj her, men obj (feilen må rettes i NDT): https://github.com/Sprakbanken/grew_ndt2ud/issues/52

"det" [UPOS=PRON, Gender=Neut] forekommer med relasjonen nsubj 1438 ganger, og 2543 ganger med expl.

Ingerid commented 1 year ago

Tilfelle av nsubj og csubj på samme predikat:

image

Oppdatering i commit https://github.com/Sprakbanken/grew_ndt2ud/pull/50/commits/847697910d5e946018423d22249e7585fa081c2c:

image

Ingerid commented 1 year ago

bilde

Regelen ser foreløpig slik ut:

rule multiple_subjects_predicate_clause {
  pattern {
    e: GOV -[nsubj|csubj]-> D1;
  }
  with {
    * -[root]-> GOV;
    GOV -[cop]-> C;
    GOV -[nsubj|csubj]-> D2;
    D1 << D2
  }
  commands {
    e.2 = outer;
  }
}
Ingerid commented 1 year ago

bilde

Ingerid commented 1 year ago

bilde

"det" er relativisert.

Ingerid commented 1 year ago

bilde

bilde

Ingerid commented 1 year ago

bilde

Ingerid commented 1 year ago

bilde

sent_id = 008560

Ingerid commented 1 year ago

Doble nsubj i leddsetninger gjennomgår nå samme endring som hovedsetninger (commit https://github.com/Sprakbanken/grew_ndt2ud/commit/1a7c53d1a7aa93691f20e1011a373dbc4805132c)

Oppsummering feilmeldinger (2023-03-28):

Different types of errors: L3 Syntax right-to-left-appos 1328 L3 Syntax rel-upos-advmod 359 L3 Syntax upos-rel-punct 156 L3 Syntax punct-is-nonproj 120 L3 Syntax rel-upos-punct 88 L3 Syntax punct-causes-nonproj 86 L2 Syntax 0-is-not-root 52 L3 Syntax too-many-subjects 12 L3 Syntax leaf-aux-cop 7

Feilene rel-upos-mark, rel-upos-cop, rel-upos-aux har blitt helt borte med den siste endringen.

Ingerid commented 1 year ago

Doble subjekter i passivkonstruksjoner er fikset med commit https://github.com/Sprakbanken/grew_ndt2ud/commit/46393fe01b9a6d0963b63dc6d710aed332e2790c

L3 Syntax right-to-left-appos 1328 L3 Syntax rel-upos-advmod 359 L3 Syntax upos-rel-punct 156 L3 Syntax punct-is-nonproj 120 L3 Syntax rel-upos-punct 88 L3 Syntax punct-causes-nonproj 86 L2 Syntax 0-is-not-root 52 L3 Syntax leaf-aux-cop 7 L3 Syntax too-many-subjects 2

De to gjenstående setningene med doble subjekter er 000890 og 010996:

bilde

bilde

Har laget nytt issue for feilretting av disse to: https://github.com/Sprakbanken/grew_ndt2ud/issues/52