jbrry / Enhanced-UD-Parsing

Repository for the ADAPT submission to the 2020 IWPT Shared Task on Enhanced Universal Dependency Parsing
Other
2 stars 1 forks source link

Some tokens have the same head twice but with different labels #2

Open jbrry opened 4 years ago

jbrry commented 4 years ago

Some tokens, e.g. token 39 from UD_Dutch-LassySmall/nl_lassysmall-ud-train.conllu have multiple heads but two of the heads are the same but have a different dependency label: 36:obj|46:nsubj:relsubj|46:nsubj:xsubj.

At the moment the parser considers edges between all pairs of words above a threshold. When a score is above the threshold it takes the edge and the label for that edge with the highest score. In such a case it will choose the deprel with the highest probability and not and not consider the same head twice and choosing a different deprel each time.

I'm not sure how best to deal with this at the moment but it warrants further investigation so am noting it here for now.

# source = LassyDevelop/wiki-138/wiki-138.p.6.s.4.xml
# sent_id = wiki-138.p.6.s.4
# text = Zo is een « Ketje » een inwoner van Brussel die er zelf geboren is en waarvan beide ouders ook geboren en getogen Brusselaars waren, een « Zinneke » is er ook geboren doch heeft slechts één ouder die zich « Ketje » mag noemen.
# auto = ALUD2.4.0-alpha003
1       Zo      zo      ADV     BW      _       8       advmod  8:advmod        _
2       is      zijn    AUX     WW|pv|tgw|ev    Number=Sing|Tense=Pres|VerbForm=Fin     8       cop     8:cop   _
3       een     een     DET     LID|onbep|stan|agr      Definite=Ind    5       det     5:det   _
4       «       «       PUNCT   LET     _       5       punct   5:punct _
5       Ketje   Ket     PROPN   N|eigen|ev|dim|onz|stan Gender=Neut|Number=Sing 8       nsubj   8:nsubj _
6       »       »       PUNCT   LET     _       5       punct   5:punct _
7       een     een     DET     LID|onbep|stan|agr      Definite=Ind    8       det     8:det   _
8       inwoner inwoner NOUN    N|soort|ev|basis|zijd|stan      Gender=Com|Number=Sing  0       root    0:root  _
9       van     van     ADP     VZ|init _       10      case    10:case _
10      Brussel Brussel PROPN   N|eigen|ev|basis|onz|stan       Gender=Neut|Number=Sing 8       nmod    8:nmod:van      _
11      die     die     PRON    VNW|betr|pron|stan|vol|persoon|getal    PronType=Rel    14      nsubj:pass      14:nsubj:pass   _
12      er      er      ADV     VNW|aanw|adv-pron|stan|red|3|getal      _       14      advmod  14:advmod       _
13      zelf    zelf    ADV     BW      _       14      advmod  14:advmod       _
14      geboren geboren VERB    WW|vd|vrij|zonder       VerbForm=Part   8       nmod    8:nmod  _
15      is      zijn    AUX     WW|pv|tgw|ev    Number=Sing|Tense=Pres|VerbForm=Fin     14      aux:pass        14:aux:pass     _
16      en      en      CCONJ   VG|neven        _       24      cc      24:cc   _
17      waarvan waarvan ADV     BW      _       24      advmod  24:advmod       _
18      beide   beide   DET     VNW|onbep|grad|stan|prenom|met-e|mv|basis       _       19      det     19:det  _
19      ouders  ouder   NOUN    N|soort|mv|basis        Number=Plur     24      nsubj   24:nsubj        _
20      ook     ook     ADV     BW      _       24      advmod  24:advmod       _
21      geboren geboren ADJ     ADJ|vrij|basis|zonder   Degree=Pos      24      nmod    24:nmod _
22      en      en      CCONJ   VG|neven        _       23      cc      23:cc   _
23      getogen getogen ADJ     ADJ|prenom|basis|zonder Degree=Pos      21      conj    21:conj:en|24:nmod      _
24      Brusselaars     Brusselaar      PROPN   N|eigen|mv|basis        Number=Plur     14      conj    8:nmod|14:conj:en       _
25      waren   zijn    AUX     WW|pv|verl|mv   Number=Plur|Tense=Past|VerbForm=Fin     24      cop     24:cop  SpaceAfter=No
26      ,       ,       PUNCT   LET     _       34      punct   34:punct        _
27      een     een     DET     LID|onbep|stan|agr      Definite=Ind    29      det     29:det  _
28      «       «       PUNCT   LET     _       29      punct   29:punct        _
29      Zinneke Zin     PROPN   N|eigen|ev|dim|onz|stan Gender=Neut|Number=Sing 34      nsubj:pass      34:nsubj:pass|36:nsubj  _
30      »       »       PUNCT   LET     _       29      punct   29:punct        _
31      is      zijn    AUX     WW|pv|tgw|ev    Number=Sing|Tense=Pres|VerbForm=Fin     34      aux:pass        34:aux:pass     _
32      er      er      ADV     VNW|aanw|adv-pron|stan|red|3|getal      _       34      advmod  34:advmod       _
33      ook     ook     ADV     BW      _       34      advmod  34:advmod       _
34      geboren geboren VERB    WW|vd|vrij|zonder       VerbForm=Part   8       parataxis       8:parataxis     _
35      doch    doch    CCONJ   VG|neven        _       36      cc      36:cc   _
36      heeft   hebben  VERB    WW|pv|tgw|met-t Number=Sing|Tense=Pres|VerbForm=Fin     34      conj    34:conj:doch    _
37      slechts slechts ADV     BW      _       39      amod    39:amod|46:nsubj:xsubj  _
38      één     één     NUM     TW|hoofd|prenom|stan    _       39      nummod  39:nummod|46:nsubj:xsubj        _
39      ouder   ouder   NOUN    N|soort|ev|basis|zijd|stan      Gender=Com|Number=Sing  36      obj     36:obj|46:nsubj:relsubj|46:nsubj:xsubj  _
40      die     die     PRON    VNW|betr|pron|stan|vol|persoon|getal    PronType=Rel    46      nsubj   39:ref  _
41      zich    zich    PRON    VNW|refl|pron|obl|red|3|getal   Case=Acc|Person=3|PronType=Prs|Reflex=Yes       46      obj     46:obj  _
42      «       «       PUNCT   LET     _       43      punct   43:punct        _
43      Ketje   Ket     PROPN   N|eigen|ev|dim|onz|stan Gender=Neut|Number=Sing 46      xcomp   46:xcomp        _
44      »       »       PUNCT   LET     _       43      punct   43:punct        _
45      mag     mogen   AUX     WW|pv|tgw|ev    Number=Sing|Tense=Pres|VerbForm=Fin     46      aux     46:aux  _
46      noemen  noemen  VERB    WW|inf|vrij|zonder      VerbForm=Inf    39      acl:relcl       39:acl:relcl    SpaceAfter=No
47      .       .       PUNCT   LET     _       8       punct   8:punct _
jbrry commented 4 years ago

Another example in UD_Lithuanian-ALKSNIS/lt_alksnis-ud-train.conllu.

Token 8 has two edges to token 5 with different deprels: 5:acl:relcl|5:ref:

# sent_id = kalbeti_ar_tyleti-s18
# text = Pasistenkite paaiškinti, kodėl įvyko neištikimybė: kokie tuo metu buvo jūsų tarpusavio santykiai, ko ieškojote.
# orig_file_sentence kalbeti_ar_tyleti#18
1       Pasistenkite    pasistengti     VERB    vksm.asm.sngr.liep.dgs.2.       Mood=Imp|Number=Plur|Person=2|Polarity=Pos|Reflex=Yes|VerbForm=Fin      0       root    0:root  _
2       paaiškinti      paaiškinti      VERB    vksm.bndr.      Polarity=Pos|VerbForm=Inf       1       xcomp   1:xcomp SpaceAfter=No
3       ,       ,       PUNCT   skyr.   _       5       punct   5:punct _
4       kodėl   kodėl   ADV     prv.nelygin.    Degree=Pos|PronType=Int,Rel     5       advmod  5:advmod        _
5       įvyko   įvykti  VERB    vksm.asm.tiesiog.būt-k.vns.3.   Aspect=Perf|Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Past|VerbForm=Fin  2       acl     2:acl|17:obl:arg:gen    _
6       neištikimybė    neištikimybė    NOUN    dkt.mot.vns.V.  Case=Nom|Gender=Fem|Number=Sing 5       nsubj   5:nsubj SpaceAfter=No
7       :       :       PUNCT   skyr.   _       5       punct   5:punct _
8       kokie   koks    DET     įv.vyr.dgs.V.   Case=Nom|Definite=Ind|Gender=Masc|Number=Plur|PronType=Int,Rel  5       acl:relcl       5:acl:relcl|5:ref       _
9       tuo     tas     DET     įv.vyr.vns.Įn.  Case=Ins|Definite=Ind|Gender=Masc|Number=Sing|PronType=Dem      10      det     10:det  _
10      metu    metas   NOUN    dkt.vyr.vns.Įn. Case=Ins|Gender=Masc|Number=Sing        8       obl     8:obl:ins       _
11      buvo    būti    AUX     vksm.asm.tiesiog.būt-k.dgs.3.   Aspect=Perf|Mood=Ind|Number=Plur|Person=3|Polarity=Pos|Tense=Past|VerbForm=Fin  8       cop     8:cop   _
12      jūsų    tu      PRON    įv.dgs.K.       Case=Gen|Definite=Ind|Number=Plur|Person=2|PronType=Prs 14      nmod    14:nmod:gen     _
13      tarpusavio      tarpusavis      NOUN    dkt.vyr.vns.K.  Case=Gen|Gender=Masc|Number=Sing        14      nmod    14:nmod:gen     _
14      santykiai       santykis        NOUN    dkt.vyr.dgs.V.  Case=Nom|Gender=Masc|Number=Plur        8       nsubj   5:nsubj|8:nsubj SpaceAfter=No
15      ,       ,       PUNCT   skyr.   _       17      punct   17:punct        _
16      ko      kas     PRON    įv.K.   Case=Gen|Definite=Ind|PronType=Int,Rel  17      obl:arg 5:ref   _
17      ieškojote       ieškoti VERB    vksm.asm.tiesiog.būt-k.dgs.2.   Aspect=Perf|Mood=Ind|Number=Plur|Person=2|Polarity=Pos|Tense=Past|VerbForm=Fin  8       conj    5:acl:relcl|8:conj      SpaceAfter=No
18      .       .       PUNCT   skyr.   _       1       punct   1:punct _