Sprakbanken / grew_ndt2ud

2 stars 0 forks source link

Validere vår konverterte versjon av UD med de offisielle valideringsskriptene #31

Closed Ingerid closed 1 year ago

Ingerid commented 1 year ago

Krav:

Lag nye issues for nødvendige endringer:

Ingerid commented 1 year ago

Feilene i oppgavelisten er fra valideringsrapporten etter å ha kjørt UniversalDependencies/tools/validate.py:

python tools/validate.py --max-err 0 --lang no --level 3 --no-tree-text --no-space-after grew_ndt2ud/data/grew_output_train.conllu 2>&1 | tee validation-report_ndt2ud.txt
Ingerid commented 1 year ago

Jeg skrev et lite skript for å oppsummere rapporten:

rows = Path("validation-report_ndt2ud.txt").read_text(encoding="utf-8").split("\n")

error_info_regx = re.compile(r"^\[Line (\d+)(?: Node )?(\d+)?\]\: \[(L.*)\] (.*)$", flags=re.DOTALL)

errors = []
for row in rows:
    m = error_info_regx.fullmatch(row)
    if m is None:
        print(row)
        continue
    errors.append(m.groups())

df = pd.DataFrame(errors, columns=["line", "node", "errortype", "message"])

print("Different types of errors:")
type_counts = df.errortype.value_counts()
print(type_counts)
Ingerid commented 1 year ago

Oppdatert feilmeldingsliste uten å spesifisere valideringsnivå:

python ../tools/validate.py --max-err 0 --lang no  --no-space-after data/grew_output_train.conllu 2>&1 | tee validation-report_ndt2ud.txt

L3 Syntax right-to-left-appos 1328 L4 Morpho feature-upos-not-permitted 449 L3 Syntax rel-upos-advmod 359 L3 Syntax upos-rel-punct 156 L3 Syntax punct-is-nonproj 120 L3 Syntax rel-upos-punct 88 L3 Syntax punct-causes-nonproj 86 L2 Syntax 0-is-not-root 52 L3 Syntax leaf-aux-cop 7 L3 Syntax too-many-subjects 2

En ny språkspesifikk feiltype:

Ingerid commented 1 year ago

Udapi har funksjonalitet som fikser ganske mange av feilene: