thorunna / UDConverter

A treebank format converter for converting PPCHE-style treebanks into UD treebanks.
Apache License 2.0
4 stars 0 forks source link

depender.py / rules.py - venslavillur #15

Open hinrikur opened 4 years ago

hinrikur commented 4 years ago

Samkvæmt UD eru óviss vensl merkt dep.

Eins og er hafa óviss vensl eða villur í venslamerkingum ýmist merkimiðanadep, rel, rel+MARK og ?.

Á endanum (fyrir útgáfu) munu allar óvissar venslamerkingar fá merkimiðann dep.

Hluti tókanna sem er merktir dep hafa hann því þeir eru sinn eigin venslahaus. Þetta má ekki vera.

Sjá tölur: https://docs.google.com/spreadsheets/d/1zpJ15Y4lRqeQuA0jJxbjdu6xoOrwYwpPAGxMcExhH8w/edit?usp=sharing

hinrikur commented 4 years ago

Nú þegar er búið að laga megnið af id == head villunum.

Eftirstandandi atriði virðast tengjast nafnháttarsetningum, t.d. IP-INF-PRN-ELAB.

Sjá dæmi úr 1902.FOSSAR.NAR-FIC,.140 þar sem sögnin 'setja' er sinn eigin haus í úttakinu.

(QTP
  (, ,-,)
  (CONJ en-en)
  (IP-INF-SPE
    (TO að-að)
    (VB setja-setja)
    (ADJP (ADVR svona-svona) (ADV heimskulega-heimskulega))
    (RPX á-á)
    (, ,-,)
    (IP-INF-PRN-ELAB
      (TO *)
      (VB setja-setja)
      (ADVP (ADV beinlínis-beinlínis))
      (PP
        (P á-á)
        (NP (NP-POS (OTHER-G annarra-annar)) (N-A hey-hey)))))
  (. ;-;))
hinrikur commented 4 years ago

Til bráðarbirgða fá allar óþekktar venslavillur merkimiðann dep, svo þeir trufli ekki UD standardinn. Þetta þarf að skoða síðar og laga.

Merkimiðar sem þetta hefur áhrif á:

Þar að auki eru debug merkimiðar staðlaðir, sama hvort þeir eru réttir eða ekki, til þess að trufla ekki UD standard.

Þetta þarf allt að yfirfara til að gera vörpunina nákvæmari