Open MagaliDuran opened 3 years ago
oi @MagaliDuran, acho q nao faz muito sentido inventar NUM e depois usar NOUN, mas isso 'e so' achismo meu mesmo.
vi esse issue https://github.com/UniversalDependencies/docs/issues/654 mas acho q nao ajuda muito pra sua pergunta.
Obrigada, @Valeria de Paiva @.***> !
Existem muitas discussões rolando no docs (ex https://github.com/UniversalDependencies/docs/issues/596) ou em repositórios específicos sobre coisas relacionadas (ex https://github.com/UniversalDependencies/UD_English-EWT/issues/113).
NO Bosque-UD a escolha for NUM. Sinceramente, não vejo motivo para mudar, e acho que isso é algo que deve ser levado em conta também: se há um treebank UD anotado e de qualidade razoável, com decisões que são justificáveis (ainda que possam ser discutíveis), me parece um desperdício tremendo decidir de maneira diferente :( Porque então a consequência disso é jogar todo o Bosque-UD fora.
Por analogia ao argumento do plural, teríamos que considerar também o "dois" um NOUN, já que ele aceita flexão de gênero? Quem está interessado em quantidades, eu acho, irá pensar em NUM, não em NOUN. Acho bastante idiossincrático "cem" e "mil" serem NUM, e milhão ser NOUN - ainda que compreensível de uma perspectiva puramente morfológica,
Se todos acharem que o tema deve ser rediscutido, já adianto que sou muito contrária à análise NOUN.
E esse talvez seja também um bom exemplo do que eu comentei sobre a impossibilidade de servir igualmente a "dois senhores" - linguística e pln. Como pra mim a prioridade desses treebanks é PLN, faz pouco sentido o NOUN.
@claudiafreitas, desculpe se a irritei com minha pergunta. Não é, de forma alguma, minha intenção sugerir que o Bosque não é bom, principalmente porque ele serviu para treinar o parser que estamos utilizando, que é muito bom. O caso é que nem sempre sabemos que decisão do Bosque foi "pensada" e que decisão foi "herdada" de mapeamentos, vide a questão dos auxiliares. Eu comparei os PUDs e vi semelhança com o inglês na anotação de POS e não na anotação de deprels (o inglês anota "dois milhões" como um compound). Queria saber se essa foi uma decisão pensada ou não. Aliás, no inglês, "milhões" é anotado como NOUN quando aparece no plural (não como compound de um número, quando é invariável).
Reabri. Magali! <3 <3 Irritou nada, a proposta aqui é discussão, desculpa se na pressa a impressao foi essa. Desculpa mesmo. Mas o issue, e essa sua resposta, deixam claro dois pontos, eu acho:
flat
pelas diretivas. Eu havia escrito "é claramente flat", mas vi que as guidelines são escorregadias, então nao é "claramente":The flat relation can also be used for other numerals and other numerical expressions that lack phrasal structure. (grifo meu, e o exemplo usado é four thousand) Mas eu continuo achando estranho anotarmos "mil" e "milhão" de maneiras diferentes, embora entenda o argumento.
Eu já me posicionei ;-)
Há algo interessante nos números: um, dois, duzentos, trezentos... novecentos flexionam em gênero. Mil não flexiona nem em número nem em gênero, mas tem a palavra "milhar" que é sinônimo, porém usado em contextos diferentes. Em quantidades genéricas, não usamos "mil", mas sim "milhares": dezenas/centenas/milhares/milhões/milhões/trilhões de dólares.
Bem, já tivemos várias discussões parecidas no passado. Entendo o posicionamento da @claudiafreitas, de quem MUITO aprendi e agradeço até hoje. Mas sugiro que as discussões sejam sempre guiadas a bons testes linguísticos.
A pergunta é, a inflexão em número seria o argumento preponderante para determinar NUM vs NOUN? Claudia mostrou o exemplo de dois/duas
(e também temos o um/uma
) mas são inflexões em gênero. Então a questão aberta pela @MagaliDuran é se a inflexão em número seria o critério para classificar NUM vs NOUN. De qq modo, estou com a @claudiafreitas por enquanto e inconsistências serão resolvidas nos corpora PT que mantenho.
Graças à discussão, fui olhar a nossa documentação do Bosque , e Magali tem toda a razão quando questiona a anotação. Está lá:
Numerais coletivos (como “dezenas”, “centenas”, “milhares”, etc.), no corpus Bosque-UD, podem estar anotados de duas formas diferentes, conforme o contexto: como NUM, caso seja um número exato (“duas centenas”, “dois bilhões”),ou como NOUN, quando é indefinido (“centenas de pessoas”).
Por favor, se algum issue também tiver como argumento inconsistência ou estranheza no Bosque, apontem! Eu achava que isso não era uma discussão (porque estava uniforme no Bosque), mas é - como quase tudo é... :(
Eu continuo discordando desse tratamento diferenciado, e sim talvez isso tenha vindo do PALAVRAS ou esteja lá por analogia à anotação do inglês. Mais alguns pontos para a discussão:
Nos dicionários brasileiros, "centena" é substantivo, mas "milhão" e "bilhão" podem ser subst ou num. :(
Inglês difere do português, já que "hundred" faz "two hundred" (que pra gente pode ser "duzentos" ou "duas centenas"), mas não faz "two hundreds". Mas faz "hundreds of people", e imagino que a diferença na anotação venha daí. Então não sei. Mas continuo achando que tudo deveria ser NUM, sobretudo porque em português não fazemos essa diferença formal entre os casos.
Acho que "dúzia" também deve estar como NOUN - e discordo igualmente.
Minha sugestão é usar NUM sempre, e esses são os meus argumentos:
Não sei se estou no mesmo "nível" da discussão de vcs, mas vou pontuar algumas coisas também. Gosto da sugestão e dos argumentos da Claudia. Só discordo do primeiro porque acho que é a mesma distinção necessária que se deve fazer entre o numeral (quantificador específico: cinco pessoas) e um pronome indefinido (quantificador genérico: muitas pessoas), mas concordo com os outros argumentos, principalmente o segundo.
Só pra deixar como referência, vou comparar com a anotação do Google, que faz o contrário do que a Claudia está sugerindo. Google classifica as palavras "milhão", "milhões", "bilhão" e "bilhões" como NOUN, seguindo basicamente 2 argumentos:
Sintaticamente essas palavras funcionam diferente dos numerais comuns:
Amanda, no Google o uso do NOUN é uma escolha ou simplesmente é fruto de ter sido treinado com material anotado dessa maneira? Tbem acho que vc traz bons pontos:
Sintaticamente o grupo dos "números" tem um comportamento diferenciado; semanticamente são semelhantes.
@claudiafreitas foi uma escolha. Na verdade, no meio do processo percebemos que essas palavras estavam com anotações inconsistentes, daí tomamos essa decisão e revisamos todos os dados anteriores sistematicamente.
Eu notei que em algumas línguas "milhões" é anotado como NUM e em outras como NOUN. No inglês, como "million" não varia no plural, fica claro que é um NUM, mas nas línguas românicas, como a palavra varia no plural, parece admitir ser tratada como um NOUN. Percebi que o PUD do francês (millions, milliards) e do espanhol (millones) anotam como NOUN e o PUD do português (milhões) e do italiano (miloni) anotam como NUM, seguindo o inglês. Notei também que no inglês os algarismos que representam a quantidade são unidos por relação "compound" à palavra "million", mas isso não é feito no português e no italiano. A relação "nummod" é adotada nas línguas românicas, mas "milhões" é head em francês e espanhol e dependente em português e italiano.
Vocês conhecem alguma discussão a respeito?