UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

400 km cada/DET? #308

Open arademaker opened 3 years ago

arademaker commented 3 years ago

@leoalenc o que acha? cada como DET?

CF29-2 Cinco linhas paralelas, de mais de 400 km cada, foram descobertas por cientistas australianos no sul do país.

─┮  
 │   ╭─╼ Cinco NUM nummod 1 2  
 │ ╭─┾ linhas NOUN nsubj:pass 2 13  
 │ │ ├─╼ paralelas ADJ amod 3 2  
 │ │ │ ╭─╼ , PUNCT punct 4 9  
 │ │ │ │   ╭─╼ de ADP case 5 6  
 │ │ │ │ ╭─┾ mais ADV advmod 6 8  
 │ │ │ │ │ ╰─╼ de ADP fixed 7 6  
 │ │ │ ├─┶ 400 NUM nummod 8 9  
 │ │ ╰─┾ km NOUN appos 9 2  
 │ │   ├─╼ cada DET det 10 9  
 │ │   ╰─╼ , PUNCT punct 11 9  
 │ ├─╼ foram AUX aux:pass 12 13  
 ╰─┾ descobertas VERB root 13 0  
   │ ╭─╼ por ADP case 14 15  
   ├─┾ cientistas NOUN obl:agent 15 13  
   │ ╰─╼ australianos ADJ amod 16 15  
   │ ╭─╼ em ADP case 17 19  
   │ ├─╼ o DET det 18 19  
   ├─┾ sul NOUN obl 19 13  
   │ │ ╭─╼ de ADP case 20 22  
   │ │ ├─╼ o DET det 21 22  
   │ ╰─┶ país NOUN nmod 22 19  
   ╰─╼ . PUNCT punct 23 13  
arademaker commented 3 years ago

achei isso durante #300

wellington36 commented 3 years ago

Acredito que esse issue possa ser expandido para os demais casos de "cada" encontrados em #300:

wellington36 commented 3 years ago

No caso os casos que menciono são da forma cada + Number + NOUN

leoalenc commented 3 years ago

@leoalenc o que acha? cada como DET?

CF29-2 Cinco linhas paralelas, de mais de 400 km cada, foram descobertas por cientistas australianos no sul do país.

@arademaker, vejo alguns problemas na análise. Primeiro, o nó 5 constitui ADP de 10, i.e., cada, que na verdade é um pronome porque ocupa lugar de um sintagma nominal. Compare:

Cada linha tem mais de 400 km. Cada uma das linhas tem mais de 400 km.

Faço a seguinte análise:

Cinco NUM nummod 1 2  
linhas NOUN nsubj:pass 2 13  
paralelas ADJ amod 3 2  
, PUNCT punct 4 10  
de ADP case 5 10  
mais ADV advmod 6 8  
de ADP fixed 7 6  
400 NUM nummod 8 9  
km NOUN nmod 9 10  
cada PRON appos 10 2  
, PUNCT punct 11 10  

Compare:

Cinco linhas paralelas, cada uma (das quais) de mais de 400 km, foram descobertas por cientistas australianos no sul do país. Cinco linhas paralelas, cada com mais de 400 km, foram descobertas por cientistas australianos no sul do país.

Não estou bem cero quanto à análise das vírgulas.

wellington36 commented 3 years ago

Seguindo a linha do @leoalenc fiz o PR #332 e resolvendo os casos que mencionei acima. Ainda necessita de revisão.

arademaker commented 3 years ago

@leoalenc , na explicação https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/308#issuecomment-878660279, não entendi o constraste que vc quis destacar nos exemplos..

@wellington36 no PR, nenhuma das sentenças vc trocou a POS dos tokens cada para PRON como indicado pelo @leoalenc, apenas o HEAD. Por outro lado, acho que tratar o cada como PRON vs DET não está claro de acordo com:

  1. https://universaldependencies.org/u/pos/PRON.html
  2. https://universaldependencies.org/u/overview/morphology.html#pronominal-words

E ainda, em https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/cada/ cada é um pronome indefinido (PronType=Ind de acordo com https://universaldependencies.org/u/feat/PronType.html). Mas em http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=17230 é um artigo indefinido (DET para UD).

arademaker commented 3 years ago

Finalmente, @wellington36 não documentou no issue qual foi a query que ele usou para encontrar os demais casos suspeitos acima. Parece que foram todos os casos listados no issue #300 que tem o token cada. Mas curiosamente, a distribuição é bem pouco uniforme no corpus:

% awk '$2 == "cada" {print $2,$3,$4,$6}' * | sort | uniq -c  | sort -nr
  39 cada cada DET Gender=Masc|Number=Sing|PronType=Tot
  27 cada cada DET Gender=Fem|Number=Sing|PronType=Tot
  14 cada cada DET Gender=Masc|Number=Sing
   5 cada cada NOUN Gender=Masc|Number=Sing
   3 cada cada PROPN Gender=Fem|Number=Sing
   2 cada cada PRON Number=Sing|PronType=Tot
   2 cada cada PRON Gender=Masc|Number=Sing
   1 cada cada PRON Gender=Fem|Number=Sing|PronType=Tot
   1 cada cada DET Number=Sing|PronType=Tot
   1 cada cada ADV _
leoalenc commented 3 years ago

@leoalenc , na explicação https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/308#issuecomment-878660279, não entendi o constraste que vc quis destacar nos exemplos..

@arademaker, um exemplo tem a palavra como determinante, modificando um substantivo, o outro, como pronome.

arademaker commented 3 years ago

Ah, então de fato podemos ter o cada como DET e PRON. Em seus exemplos, vc entender 1 como DET e 2 como PRON? Para mim os dois parecem DET o segundo modificando o uma.

  1. Cada linha tem mais de 400 km.
  2. Cada uma das linhas tem mais de 400 km.
leoalenc commented 3 years ago

Ah, então de fato podemos ter o cada como DET e PRON. Em seus exemplos, vc entender 1 como DET e 2 como PRON? Para mim os dois parecem DET o segundo modificando o uma.

  1. Cada linha tem mais de 400 km.
  2. Cada uma das linhas tem mais de 400 km.

@arademaker, DET modifica N ou NP, segundo a documentação. Em (1), cada é claramente um DET. PRON, por sua vez, substitui um N ou NP, também conforme a documentação. No exemplo do Bosque, cada funciona claramente como PRON, pois se encontra sozinho na construção de mais de 400 km cada. Em (2), uma funciona como PRON, dada a definição em UD. Como PRON substitui NP, podemos analisar cada nesse exemplo como DET, conforme a definição em UD.
Não estou muito satisfeito com essa análise, contudo. Sinto falta em UD de uma formalização da estrutura do NP. O DET faz parte do NP mas ao mesmo tempo pode ficar fora dele?