UniversalDependencies / UD_Portuguese-PUD

Parallel Universal Dependencies.
Other
5 stars 3 forks source link

more copula issues #41

Open vcvpaiva opened 3 years ago

vcvpaiva commented 3 years ago

it looks like both English and Portuguese are bad here (but then copula is the gift that keeps giving...) I'd expect the root to be "telephones", as "sao" is a copula

1. newdoc id = n01046 sent_id = n01046003 text = Nossos celulares são muito mais que telefones hoje em dia. texten = Our cellphones are so much more than phones these days. 1 Nossos PRON DTP$ Gender=Masc|Number=Plur|Number[psor]=Plur|Person=1|PronType=Prs 2 det 2 celulares NOUN NN Gender=Masc|Number=Plur 3 nsubj 3 são ser VERB VBC Mood=Ind|Number=Plur|Person=3|Tense=Pres 0 root 4 muito muito ADV RB 5 advmod 5 mais mais ADV RBR 3 advmod 6 que ADP IN 7 case 7 telefones telefone NOUN NN Gender=Masc|Number=Plur 5 obl 8 hoje hoje ADV RB 3 advmod 9 em em ADP IN 10 case 10 dia dia NOUN NN Gender=Masc|Number=Sing 8 obl SpaceAfter=No 11 . . PUNCT . 3 punct _

The English version agrees with me that "sao/are" is a copula, but says the predicate of the copula is "more", instead of telephones, which I think is just an adjective modification of the phones.

vcvpaiva commented 3 years ago
  1. this seems to follow guidelines on parataxis

    sent_id = n01046036 text = É incrível, reportou a cliente de dados ilimitados da SaskTel, Lindsay Gay, no mês passado. texten = "It is amazing," reported SaskTel unlimited data customer Lindsay Gay last month. 1 É ser AUX VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 2 cop 2 incrível incrível ADJ JJ Gender=Masc|Number=Sing 0 root SpaceAfter=No 3 , , PUNCT , 4 punct 4 reportou reportar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 2 parataxis 5 a o DET DT Gender=Fem|Number=Sing 6 det 6 cliente cliente NOUN NN Gender=Fem|Number=Sing 4 nsubj 7 de de ADP IN 8 case 8 dados dado NOUN NN Gender=Masc|Number=Plur 6 nmod 9 ilimitados ilimitado ADJ JJ Gender=Masc|Number=Plur 8 amod 10-11 da 10 de de ADP INDT 12 case 11 a o DET Gender=Fem|Number=Sing 12 det 12 SaskTel SaskTel PROPN NNP Gender=Fem|Number=Sing 6 nmod SpaceAfter=No 13 , , PUNCT , 14 punct 14 Lindsay Lindsay PROPN NNP Gender=Fem|Number=Sing 6 appos 15 Gay Gay PROPN NNP Gender=Fem|Number=Sing 14 flat:name SpaceAfter=No 16 , , PUNCT , 19 punct 17-18 no 17 em em ADP INDT 19 case 18 o o DET Gender=Masc|Number=Sing 19 det 19 mês mês NOUN NN Gender=Masc|Number=Sing 4 obl 20 passado passado ADJ JJ Gender=Masc|Number=Sing 19 amod SpaceAfter=No 21 . . PUNCT . 2 punct

BUT then the English version seems the opposite: sentid = n01046036 text = "It is amazing," reported SaskTel unlimited data customer Lindsay Gay last month. 1 " " PUNCT `` 4 punct 4:punct SpaceAfter=No 2 It it PRON PRP Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs 4 nsubj 4:nsubj 3 is be AUX VBZ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 4 cop 4:cop 4 amazing amazing ADJ JJ Degree=Pos 7 ccomp 7:ccomp SpaceAfter=No 5 , , PUNCT , 4 punct 4:punct SpaceAfter=No 6 " " PUNCT '' 4 punct 4:punct 7 reported report VERB VBD Mood=Ind|Tense=Past|VerbForm=Fin 0 root 0:root 8 SaskTel SaskTel PROPN NNP Number=Sing 11 compound 11:compound 9 unlimited unlimited ADJ JJ Degree=Pos 10 amod 10:amod 10 data data NOUN NN Number=Sing 11 compound 11:compound 11 customer customer NOUN NN Number=Sing 7 nsubj 7:nsubj 12 Lindsay Lindsay PROPN NNP Number=Sing 11 flat 11:flat 13 Gay Gay PROPN NNP Number=Sing 11 flat 11:flat 14 last last ADJ JJ Degree=Pos 15 amod 15:amod 15 month month NOUN NN Number=Sing 7 obl:tmod 7:obl:tmod SpaceAfter=No 16 . . PUNCT . 7 punct 7:punct _

vcvpaiva commented 3 years ago
  1. sent_id = n01050009 text = O atual período de espera é de oito semanas. texten = The current waiting period is eight weeks. 1 O o DET DT Gender=Masc|Number=Sing 3 det 2 atual atual ADJ JJ Gender=Masc|Number=Sing 3 amod 3 período período NOUN NN Gender=Masc|Number=Sing 6 nsubj 4 de de ADP IN 5 case 5 espera espera NOUN NN Gender=Fem|Number=Sing 3 nmod 6 é ser VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 0 root 7 de de ADP IN 9 case 8 oito NUM CD 9 nummod 9 semanas semana NOUN NN Gender=Fem|Number=Plur 6 obl SpaceAfter=No 10 . . PUNCT . 6 punct _

root in EN is "weeks", but in PT is the verb to be.

vcvpaiva commented 3 years ago

more parataxis issues:

newdoc id = n01060 sent_id = n01060069 text = E, admitiu ela, "vocês têm de olhar para onde ela reconheceu que nós precisamos de alguma coisa diferente - nós podemos fazer melhor - e onde ela expressou pesar. texten = And, she granted, “you have to look at where she has acknowledged that we need to do something different—we can do better—and where she has expressed regret.” 1 E CCONJ CC 3 discourse SpaceAfter=No 2 , , PUNCT , 1 punct 3 admitiu admitir VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 0 root 4 ela PRON PRP Gender=Fem|Number=Sing|Person=3 3 nsubj SpaceAfter=No 5 , , PUNCT , 10 punct 6 " " PUNCT `` 10 punct SpaceAfter=No 7 vocês PRON PRP Case=Nom|Number=Plur|Person=3 10 nsubj 8 têm ter AUX VBC Mood=Ind|Number=Plur|Person=3|Tense=Pres 10 aux 9 de de ADP IN 8 fixed 10 olhar VERB VB 3 parataxis 11 para para ADP IN 14 case 12 onde onde ADV WRB 14 advmod 13 ela PRON PRP Case=Nom|Gender=Fem|Number=Sing|Person=3 14 nsubj 14 reconheceu reconhecer VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 10 xcomp 15 que que SCONJ IN 17 mark 16 nós PRON PRP Case=Nom|Number=Plur|Person=1 17 nsubj 17 precisamos precisar VERB VBC Mood=Ind|Number=Plur|Person=1|Tense=Pres 14 ccomp 18 de de ADP IN 20 case 19 alguma DET DT Gender=Fem|Number=Sing 20 det 20 coisa coisa NOUN NN Gender=Fem|Number=Sing 17 obl 21 diferente diferente ADJ JJ Gender=Fem|Number=Sing 20 amod 22 - - PUNCT - 25 punct 23 nós PRON PRP Case=Nom|Number=Plur|Person=1 25 nsubj 24 podemos poder AUX VBC Mood=Ind|Number=Plur|Person=1|Tense=Pres 25 aux 25 fazer VERB VB 17 parataxis 26 melhor melhor ADV RBR 25 advmod 27 - - PUNCT - 25 punct 28 e e CCONJ CC 31 cc 29 onde onde ADV WRB 31 advmod 30 ela PRON PRP Case=Nom|Gender=Fem|Number=Sing|Person=3 31 nsubj 31 expressou expressar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 14 conj 32 pesar pesar NOUN NN Gender=Masc|Number=Sing 31 obj SpaceAfter=No 33 . . PUNCT . 3 punct

vcvpaiva commented 3 years ago

Verb "sentir/to feel" as a copula?

sent_id = n01061023 text = Quando estou interpretando ele, eu me sinto poderoso, explicou o personificador de Donald Trump, John Di Domenico, à Slate, no ano passado. texten = “When I’m playing him, I feel powerful,” the Donald Trump impersonator John Di Domenico explained to Slate last year. 1 Quando SCONJ IN 3 mark 2 estou AUX VBC Mood=Ind|Number=Sing|Person=1|Tense=Pres 3 aux 3 interpretando VERB VBG 9 advcl 4 ele PRON PRP Case=Acc|Gender=Masc|Number=Sing|Person=3 3 obj SpaceAfter=No 5 , , PUNCT , 3 punct 6 eu PRON PRP Case=Nom|Number=Sing|Person=1 9 nsubj 7 me PRON PRP Case=Acc|Number=Sing|Person=1 9 expl:pv 8 sinto AUX VBC Mood=Ind|Number=Sing|Person=1|Tense=Pres 9 cop 9 poderoso poderoso ADJ JJ Gender=Masc|Number=Sing 0 root SpaceAfter=No 10 , , PUNCT , 11 punct 11 explicou explicar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 9 parataxis 12 o o DET DT Gender=Masc|Number=Sing 13 det 13 personificador NOUN NN Gender=Masc|Number=Sing 11 nsubj 14 de de ADP IN 15 case 15 Donald Donald PROPN NNP Gender=Masc|Number=Sing 13 nmod 16 Trump Trump PROPN NNP Gender=Masc|Number=Sing 15 flat:name SpaceAfter=No 17 , , PUNCT , 18 punct 18 John John PROPN NNP Gender=Masc|Number=Sing 13 appos 19 Di Di PROPN NNP Gender=Masc|Number=Sing 18 flat:name 20 Domenico Domenico PROPN NNP Gender=Masc|Number=Sing 18 flat:name SpaceAfter=No 21 , , PUNCT , 18 punct 22-23 à 22 a a ADP INDT 24 case 23 a o DET Gender=Fem|Number=Sing 24 det 24 Slate Slate PROPN NNP Gender=Fem|Number=Sing 11 obl SpaceAfter=No 25 , , PUNCT , 28 punct 26-27 no 26 em em ADP INDT 28 case 27 o o DET Gender=Masc|Number=Sing 28 det 28 ano ano NOUN NN Gender=Masc|Number=Sing 11 obl 29 passado passado ADJ JJ Gender=Masc|Number=Sing 28 amod SpaceAfter=No 30 . . PUNCT . 9 punct

vcvpaiva commented 3 years ago

Verb "passar/to spend" as a copula?

sent_id = n01064096 text = Como muitas pessoas que conheço, passei os meses recentes acordado até tarde, lendo as sondagens em terror. texten = Like many people I know, I’ve spent recent months staying up late, reading polls in terror. 1 Como ADP IN 3 case 2 muitas DET DT Gender=Fem|Number=Plur 3 det 3 pessoas pessoa NOUN NN Gender=Fem|Number=Plur 11 obl 4 que PRON WP 5 nsubj 5 conheço VERB VBC Mood=Ind|Number=Sing|Person=1|Tense=Pres 3 acl:relcl SpaceAfter=No 6 , , PUNCT , 3 punct 7 passei AUX VBC Mood=Ind|Number=Sing|Person=1|Tense=Past 11 cop 8 os o DET DT Gender=Masc|Number=Plur 9 det 9 meses mês NOUN NN Gender=Masc|Number=Plur 11 obl:tmod 10 recentes recente ADJ JJ Gender=Masc|Number=Plur 9 amod 11 acordado acordado ADJ JJ Gender=Masc|Number=Sing 0 root 12 até ADP IN 13 case 13 tarde tarde ADV RB 11 xcomp SpaceAfter=No 14 , , PUNCT , 15 punct 15 lendo VERB VBG 11 acl 16 as o DET DT Gender=Fem|Number=Plur 17 det 17 sondagens sondagem NOUN NN Gender=Fem|Number=Plur 15 obj 18 em em ADP IN 19 case 19 terror terror NOUN NN Gender=Masc|Number=Sing 17 nmod SpaceAfter=No 20 . . PUNCT . 11 punct

vcvpaiva commented 3 years ago

Traditional example of copula, EN has "area" as the root, while PT has "está".

newdoc id = n01068 sent_id = n01068029 text = O círculo eleitoral está na área do conselho de Kesteven do Norte, onde 62% dos eleitores apoiaram a saída da UE. texten = The constituency is in the council area of North Kesteven, where 62% of voters backed leaving the EU. 1 O o DET DT Gender=Masc|Number=Sing 2 det 2 círculo círculo NOUN NN Gender=Masc|Number=Sing 4 nsubj 3 eleitoral eleitoral ADJ JJ Gender=Masc|Number=Sing 2 amod 4 está estar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 0 root 5-6 na 5 em em ADP INDT 7 case 6 a o DET Gender=Fem|Number=Sing 7 det 7 área área NOUN NN Gender=Fem|Number=Sing 4 obl 8-9 do 8 de de ADP INDT 10 case 9 o o DET Gender=Masc|Number=Sing 10 det 10 conselho conselho NOUN NN Gender=Masc|Number=Sing 7 nmod 11 de de ADP IN 12 case 12 Kesteven Kesteven PROPN NNP Gender=Masc|Number=Sing 10 nmod 13-14 do Proper=True 13 de de ADP INDT 15 case 14 o o DET Gender=Masc|Number=Sing 15 det 15 Norte norte NOUN NN Gender=Masc|Number=Sing 12 nmod Proper=True|SpaceAfter=No 16 , , PUNCT , 23 punct 17 onde onde ADV WRB 23 advmod 18 62 NUM CD Gender=Masc 19 nummod SpaceAfter=No 19 % SYM SYM 23 nsubj 20-21 dos 20 de de ADP INDT 22 case 21 os o DET Gender=Masc|Number=Plur 22 det 22 eleitores eleitor NOUN NN Gender=Masc|Number=Plur 19 nmod ToDo=nmod 23 apoiaram apoiar VERB VBC Mood=Ind|Number=Plur|Person=3|Tense=Past 7 acl:relcl 24 a o DET DT Gender=Fem|Number=Sing 25 det 25 saída saída NOUN NN Gender=Fem|Number=Sing 23 obj 26-27 da 26 de de ADP INDT 28 case 27 a o DET Gender=Fem|Number=Sing 28 det 28 UE UE PROPN NNP Gender=Fem|Number=Sing 25 nmod SpaceAfter=No 29 . . PUNCT . 4 punct _

bad translation of "constituency"

vcvpaiva commented 3 years ago

another ESTAR copula considered root:

sent_id = n01074015 text = A África do Sul está quase em um beco sem saída e nós temos que conseguir alcançar suas expectativas. texten = South Africa are almost at the point of no return and we have to be able to match their desire. 1 A o DET DT Gender=Fem|Number=Sing 2 det 2 África África PROPN NNP Gender=Fem|Number=Sing 6 nsubj 3-4 do Proper=True 3 de de ADP INDT 5 case 4 o o DET Gender=Masc|Number=Sing 5 det 5 Sul sul NOUN NN Gender=Masc|Number=Sing 2 nmod Proper=True 6 está estar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 0 root 7 quase quase ADV RB 6 advmod 8 em em ADP IN 10 case 9 um um DET DT Gender=Masc|Number=Sing 10 det 10 beco beco NOUN NN Gender=Masc|Number=Sing 6 obl 11 sem ADP IN 12 case 12 saída saída NOUN NN Gender=Fem|Number=Sing 10 nmod 13 e e CCONJ CC 17 cc 14 nós PRON PRP Case=Nom|Number=Plur|Person=1 17 nsubj 15 temos ter AUX VBC Mood=Ind|Number=Plur|Person=1|Tense=Pres 17 aux 16 que ADP IN 15 fixed 17 conseguir VERB VB 6 conj 18 alcançar VERB VB 17 xcomp 19 suas PRON DTP$ Gender=Fem|Number=Plur|Number[psor]=Sing|Person=3|PronType=Prs 20 det 20 expectativas expectativa NOUN NN Gender=Fem|Number=Plur 18 obj SpaceAfter=No 21 . . PUNCT . 6 punct