UniversalDependencies / UD_Portuguese-PUD

Parallel Universal Dependencies.
Other
5 stars 3 forks source link

symbols as roots #40

Closed vcvpaiva closed 3 years ago

vcvpaiva commented 3 years ago

sent_id = n01043014 text = O orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas. texten = Its annual budget is more than $1.4 billion, and it employs more than 6,000 people. 1 O o DET DT Gender=Masc|Number=Sing 2 det 2 orçamento orçamento NOUN NN Gender=Masc|Number=Sing 5 nsubj 3 anual anual ADJ JJ Gender=Masc|Number=Sing 2 amod 4 é ser AUX VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 5 cop 5 maior maior ADJ JJR Gender=Masc|Number=Sing 0 root 6 que ADP IN 7 case 7 $ SYM SYM 5 obl SpaceAfter=No 8 1.4 NUM CD 7 nummod 9 bilhões NUM CD Number=Plur 8 nummod 10 e e CCONJ CC 11 cc 11 emprega empregar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 5 conj 12 mais mais ADV RBR 11 advmod 13 de de ADP IN 15 case 14 6.000 NUM CD 15 nummod 15 pessoas pessoa NOUN NN Gender=Fem|Number=Plur 12 obl SpaceAfter=No 16 . . PUNCT . 5 punct

translation should be Seu orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas.

but this doesn't matter as much as to decide that the root is the symbol $, as it's in the English version.

vcvpaiva commented 3 years ago

Similarly: sent_id = n01043027 text = O total de remuneração por desempenho e bônus, naquele ano, foi de $1,5 milhões, quase no mesmo nível que o de 2015-2016. texten = The total for performance pay and bonus that year was $1.5 million, about the same level as for 2015-2016. 1 O o DET DT Gender=Masc|Number=Sing 2 det 2 total total NOUN NN Gender=Masc|Number=Sing 13 nsubj 3 de de ADP IN 4 case 4 remuneração remuneração NOUN NN Gender=Fem|Number=Sing 2 nmod 5 por por ADP IN 6 case 6 desempenho desempenho NOUN NN Gender=Masc|Number=Sing 4 nmod 7 e e CCONJ CC 8 cc 8 bônus bônus NOUN NN Gender=Masc|Number=Sing 4 conj SpaceAfter=No 9 , , PUNCT , 11 punct 10 naquele ADP INDT Gender=Masc|Number=Sing 11 case 11 ano ano NOUN NN Gender=Masc|Number=Sing 13 obl SpaceAfter=No 12 , , PUNCT , 11 punct 13 foi VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 0 root 14 de de ADP IN 15 case 15 $ SYM SYM 13 obl SpaceAfter=No 16 1,5 NUM CD Gender=Masc 15 nummod 17 milhões NUM CD Number=Plur 16 nummod SpaceAfter=No 18 , , PUNCT , 23 punct 19 quase quase ADV RB 23 advmod ToDo=ex-adp-child 20-21 no 20 em em ADP INDT 23 case 21 o o DET Gender=Masc|Number=Sing 23 det 22 mesmo DET DT Gender=Masc|Number=Sing 23 det 23 nível nível NOUN NN Gender=Masc|Number=Sing 13 obl 24 que ADP IN 25 case 25 o PRON PDEM Gender=Masc|Number=Sing 23 nmod 26 de de ADP IN 27 case 27 2015-2016 NUM CD Gender=Masc 25 nmod SpaceAfter=No 28 . . PUNCT . 13 punct

where the root should be $ and not the verb "foi" (was) which is copula.

arademaker commented 3 years ago

We need a way to analyze $ NUM billions. It is fine to have the symbol as the head of the expression. But regarding the NUM billions, the English corpus is very inconsistent. I am not sure what was the conclusion in https://github.com/UniversalDependencies/docs/issues/596, @dan-zeman ?! Since both are NUM, nummod looks fine for me.


n01043014> Seu orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas.

─┮  
 │   ╭─╼ Seu DET det 1 2  
 │ ╭─┾ orçamento NOUN nsubj 2 7  
 │ │ ╰─╼ anual ADJ amod 3 2  
 │ ├─╼ é AUX cop 4 7  
 │ ├─╼ maior ADJ advmod 5 7  
 │ ├─╼ que ADP case 6 7  
 ╰─┾ $ SYM root 7 0  
   │ ╭─╼ 1.4 NUM nummod 8 9  
   ├─┶ bilhões NUM nummod 9 7  
   │ ╭─╼ e CCONJ cc 10 11  
   ├─┾ emprega VERB conj 11 7  
   │ ╰─┮ mais ADV advmod 12 11  
   │   │ ╭─╼ de ADP case 13 15  
   │   │ ├─╼ 6.000 NUM nummod 14 15  
   │   ╰─┶ pessoas NOUN obl 15 12  
   ╰─╼ . PUNCT punct 16 7  
arademaker commented 3 years ago

For the second case, I am trying to follow the English analysis as close as possible.

n01043027> O total de remuneração por desempenho e bônus, naquele ano, foi de $1,5 milhões, quase no mesmo nível que o de 2015-2016.

─┮  
 │     ╭─╼ O DET det 1 2  
 │   ╭─┾ total NOUN nsubj 2 13  
 │   │ │ ╭─╼ de ADP case 3 4  
 │   │ ├─┾ remuneração NOUN nmod 4 2  
 │   │ │ │ ╭─╼ por ADP case 5 6  
 │   │ │ ├─┶ desempenho NOUN nmod 6 4  
 │   │ │ │ ╭─╼ e CCONJ cc 7 8  
 │   │ │ ╰─┶ bônus NOUN conj 8 4  
 │   │ │ ╭─╼ , PUNCT punct 9 11  
 │   │ │ ├─╼ naquele ADP case 10 11  
 │   │ ╰─┾ ano NOUN nmod 11 2  
 │   │   ╰─╼ , PUNCT punct 12 11  
 │ ╭─┶ foi AUX cop 13 15  
 │ ├─╼ de ADP case 14 15  
 ╰─┾ $ SYM root 15 0  
   │ ╭─╼ 1,5 NUM nummod 16 17  
   ├─┶ milhões NUM nummod 17 15  
   │ ╭─╼ , PUNCT punct 18 23  
   │ ├─╼ quase ADV advmod 19 23  
   │ ├─╼ em ADP case 20 23  
   │ ├─╼ o DET det 21 23  
   │ ├─╼ mesmo ADJ amod 22 23  
   ├─┾ nível NOUN appos 23 15  
   │ │ ╭─╼ que ADP case 24 25  
   │ ╰─┾ o PRON nmod 25 23  
   │   │ ╭─╼ de ADP case 26 27  
   │   ╰─┶ 2015-2016 NUM nmod 27 25  
   ╰─╼ . PUNCT punct 28 15  

First, I found weird obl dependents of a copula. So I made naquele ano modifier of total. Second, the emprega mais de 6.000 pessoas is now appos of $ 1.4 bilhões but appos and nmod are always hard to distinguish.

arademaker commented 3 years ago

comments are welcome, but I believe that 5a229dd solves this issue.