Open arademaker opened 3 years ago
achei isso durante #300
Acredito que esse issue possa ser expandido para os demais casos de "cada" encontrados em #300:
cada
dois dias de trabalho"cada
4772 letras"cada
dois passos"cada
cinco espanhóis"cada
3 portugueses é pobre"cada
3 casas"cada
5 jovens"cada
dois segundos"No caso os casos que menciono são da forma cada
+ Number + NOUN
@leoalenc o que acha? cada como DET?
CF29-2 Cinco linhas paralelas, de mais de 400 km cada, foram descobertas por cientistas australianos no sul do país.
@arademaker, vejo alguns problemas na análise. Primeiro, o nó 5 constitui ADP de 10, i.e., cada, que na verdade é um pronome porque ocupa lugar de um sintagma nominal. Compare:
Cada linha tem mais de 400 km. Cada uma das linhas tem mais de 400 km.
Faço a seguinte análise:
Cinco NUM nummod 1 2
linhas NOUN nsubj:pass 2 13
paralelas ADJ amod 3 2
, PUNCT punct 4 10
de ADP case 5 10
mais ADV advmod 6 8
de ADP fixed 7 6
400 NUM nummod 8 9
km NOUN nmod 9 10
cada PRON appos 10 2
, PUNCT punct 11 10
Compare:
Cinco linhas paralelas, cada uma (das quais) de mais de 400 km, foram descobertas por cientistas australianos no sul do país. Cinco linhas paralelas, cada com mais de 400 km, foram descobertas por cientistas australianos no sul do país.
Não estou bem cero quanto à análise das vírgulas.
Seguindo a linha do @leoalenc fiz o PR #332 e resolvendo os casos que mencionei acima. Ainda necessita de revisão.
@leoalenc , na explicação https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/308#issuecomment-878660279, não entendi o constraste que vc quis destacar nos exemplos..
@wellington36 no PR, nenhuma das sentenças vc trocou a POS dos tokens cada
para PRON como indicado pelo @leoalenc, apenas o HEAD. Por outro lado, acho que tratar o cada
como PRON vs DET não está claro de acordo com:
E ainda, em https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/cada/ cada é um pronome indefinido (PronType=Ind de acordo com https://universaldependencies.org/u/feat/PronType.html). Mas em http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=17230 é um artigo indefinido (DET para UD).
Finalmente, @wellington36 não documentou no issue qual foi a query que ele usou para encontrar os demais casos suspeitos acima. Parece que foram todos os casos listados no issue #300 que tem o token cada
. Mas curiosamente, a distribuição é bem pouco uniforme no corpus:
% awk '$2 == "cada" {print $2,$3,$4,$6}' * | sort | uniq -c | sort -nr
39 cada cada DET Gender=Masc|Number=Sing|PronType=Tot
27 cada cada DET Gender=Fem|Number=Sing|PronType=Tot
14 cada cada DET Gender=Masc|Number=Sing
5 cada cada NOUN Gender=Masc|Number=Sing
3 cada cada PROPN Gender=Fem|Number=Sing
2 cada cada PRON Number=Sing|PronType=Tot
2 cada cada PRON Gender=Masc|Number=Sing
1 cada cada PRON Gender=Fem|Number=Sing|PronType=Tot
1 cada cada DET Number=Sing|PronType=Tot
1 cada cada ADV _
@leoalenc , na explicação https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/308#issuecomment-878660279, não entendi o constraste que vc quis destacar nos exemplos..
@arademaker, um exemplo tem a palavra como determinante, modificando um substantivo, o outro, como pronome.
Ah, então de fato podemos ter o cada
como DET e PRON. Em seus exemplos, vc entender 1 como DET e 2 como PRON? Para mim os dois parecem DET o segundo modificando o uma
.
Ah, então de fato podemos ter o
cada
como DET e PRON. Em seus exemplos, vc entender 1 como DET e 2 como PRON? Para mim os dois parecem DET o segundo modificando ouma
.
- Cada linha tem mais de 400 km.
- Cada uma das linhas tem mais de 400 km.
@arademaker, DET modifica N ou NP, segundo a documentação. Em (1), cada é claramente um DET. PRON, por sua vez, substitui um N ou NP, também conforme a documentação. No exemplo do Bosque, cada funciona claramente como PRON, pois se encontra sozinho na construção de mais de 400 km cada.
Em (2), uma funciona como PRON, dada a definição em UD. Como PRON substitui NP, podemos analisar cada nesse exemplo como DET, conforme a definição em UD.
Não estou muito satisfeito com essa análise, contudo. Sinto falta em UD de uma formalização da estrutura do NP. O DET faz parte do NP mas ao mesmo tempo pode ficar fora dele?
@leoalenc o que acha? cada como DET?