Closed vcvpaiva closed 3 years ago
Similarly: sent_id = n01043027 text = O total de remuneração por desempenho e bônus, naquele ano, foi de $1,5 milhões, quase no mesmo nível que o de 2015-2016. texten = The total for performance pay and bonus that year was $1.5 million, about the same level as for 2015-2016. 1 O o DET DT Gender=Masc|Number=Sing 2 det 2 total total NOUN NN Gender=Masc|Number=Sing 13 nsubj 3 de de ADP IN 4 case 4 remuneração remuneração NOUN NN Gender=Fem|Number=Sing 2 nmod 5 por por ADP IN 6 case 6 desempenho desempenho NOUN NN Gender=Masc|Number=Sing 4 nmod 7 e e CCONJ CC 8 cc 8 bônus bônus NOUN NN Gender=Masc|Number=Sing 4 conj SpaceAfter=No 9 , , PUNCT , 11 punct 10 naquele ADP INDT Gender=Masc|Number=Sing 11 case 11 ano ano NOUN NN Gender=Masc|Number=Sing 13 obl SpaceAfter=No 12 , , PUNCT , 11 punct 13 foi VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Past 0 root 14 de de ADP IN 15 case 15 $ SYM SYM 13 obl SpaceAfter=No 16 1,5 NUM CD Gender=Masc 15 nummod 17 milhões NUM CD Number=Plur 16 nummod SpaceAfter=No 18 , , PUNCT , 23 punct 19 quase quase ADV RB 23 advmod ToDo=ex-adp-child 20-21 no 20 em em ADP INDT 23 case 21 o o DET Gender=Masc|Number=Sing 23 det 22 mesmo DET DT Gender=Masc|Number=Sing 23 det 23 nível nível NOUN NN Gender=Masc|Number=Sing 13 obl 24 que ADP IN 25 case 25 o PRON PDEM Gender=Masc|Number=Sing 23 nmod 26 de de ADP IN 27 case 27 2015-2016 NUM CD Gender=Masc 25 nmod SpaceAfter=No 28 . . PUNCT . 13 punct
where the root should be $ and not the verb "foi" (was) which is copula.
We need a way to analyze $ NUM billions
. It is fine to have the symbol as the head of the expression. But regarding the NUM billions
, the English corpus is very inconsistent. I am not sure what was the conclusion in https://github.com/UniversalDependencies/docs/issues/596, @dan-zeman ?! Since both are NUM, nummod
looks fine for me.
n01043014> Seu orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas.
─┮
│ ╭─╼ Seu DET det 1 2
│ ╭─┾ orçamento NOUN nsubj 2 7
│ │ ╰─╼ anual ADJ amod 3 2
│ ├─╼ é AUX cop 4 7
│ ├─╼ maior ADJ advmod 5 7
│ ├─╼ que ADP case 6 7
╰─┾ $ SYM root 7 0
│ ╭─╼ 1.4 NUM nummod 8 9
├─┶ bilhões NUM nummod 9 7
│ ╭─╼ e CCONJ cc 10 11
├─┾ emprega VERB conj 11 7
│ ╰─┮ mais ADV advmod 12 11
│ │ ╭─╼ de ADP case 13 15
│ │ ├─╼ 6.000 NUM nummod 14 15
│ ╰─┶ pessoas NOUN obl 15 12
╰─╼ . PUNCT punct 16 7
For the second case, I am trying to follow the English analysis as close as possible.
n01043027> O total de remuneração por desempenho e bônus, naquele ano, foi de $1,5 milhões, quase no mesmo nível que o de 2015-2016.
─┮
│ ╭─╼ O DET det 1 2
│ ╭─┾ total NOUN nsubj 2 13
│ │ │ ╭─╼ de ADP case 3 4
│ │ ├─┾ remuneração NOUN nmod 4 2
│ │ │ │ ╭─╼ por ADP case 5 6
│ │ │ ├─┶ desempenho NOUN nmod 6 4
│ │ │ │ ╭─╼ e CCONJ cc 7 8
│ │ │ ╰─┶ bônus NOUN conj 8 4
│ │ │ ╭─╼ , PUNCT punct 9 11
│ │ │ ├─╼ naquele ADP case 10 11
│ │ ╰─┾ ano NOUN nmod 11 2
│ │ ╰─╼ , PUNCT punct 12 11
│ ╭─┶ foi AUX cop 13 15
│ ├─╼ de ADP case 14 15
╰─┾ $ SYM root 15 0
│ ╭─╼ 1,5 NUM nummod 16 17
├─┶ milhões NUM nummod 17 15
│ ╭─╼ , PUNCT punct 18 23
│ ├─╼ quase ADV advmod 19 23
│ ├─╼ em ADP case 20 23
│ ├─╼ o DET det 21 23
│ ├─╼ mesmo ADJ amod 22 23
├─┾ nível NOUN appos 23 15
│ │ ╭─╼ que ADP case 24 25
│ ╰─┾ o PRON nmod 25 23
│ │ ╭─╼ de ADP case 26 27
│ ╰─┶ 2015-2016 NUM nmod 27 25
╰─╼ . PUNCT punct 28 15
First, I found weird obl
dependents of a copula. So I made naquele ano
modifier of total
. Second, the emprega mais de 6.000 pessoas
is now appos
of $ 1.4 bilhões
but appos and nmod are always hard to distinguish.
comments are welcome, but I believe that 5a229dd solves this issue.
sent_id = n01043014 text = O orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas. texten = Its annual budget is more than $1.4 billion, and it employs more than 6,000 people. 1 O o DET DT Gender=Masc|Number=Sing 2 det 2 orçamento orçamento NOUN NN Gender=Masc|Number=Sing 5 nsubj 3 anual anual ADJ JJ Gender=Masc|Number=Sing 2 amod 4 é ser AUX VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 5 cop 5 maior maior ADJ JJR Gender=Masc|Number=Sing 0 root 6 que ADP IN 7 case 7 $ SYM SYM 5 obl SpaceAfter=No 8 1.4 NUM CD 7 nummod 9 bilhões NUM CD Number=Plur 8 nummod 10 e e CCONJ CC 11 cc 11 emprega empregar VERB VBC Mood=Ind|Number=Sing|Person=3|Tense=Pres 5 conj 12 mais mais ADV RBR 11 advmod 13 de de ADP IN 15 case 14 6.000 NUM CD 15 nummod 15 pessoas pessoa NOUN NN Gender=Fem|Number=Plur 12 obl SpaceAfter=No 16 . . PUNCT . 5 punct
translation should be Seu orçamento anual é maior que $1.4 bilhões e emprega mais de 6.000 pessoas.
but this doesn't matter as much as to decide that the root is the symbol $, as it's in the English version.