ud-portugues / Brazilian-Team

Brazilian researchers initiative on UD
6 stars 0 forks source link

NUM ou NOUN? milhões, bilhões #4

Open MagaliDuran opened 3 years ago

MagaliDuran commented 3 years ago

Eu notei que em algumas línguas "milhões" é anotado como NUM e em outras como NOUN. No inglês, como "million" não varia no plural, fica claro que é um NUM, mas nas línguas românicas, como a palavra varia no plural, parece admitir ser tratada como um NOUN. Percebi que o PUD do francês (millions, milliards) e do espanhol (millones) anotam como NOUN e o PUD do português (milhões) e do italiano (miloni) anotam como NUM, seguindo o inglês. Notei também que no inglês os algarismos que representam a quantidade são unidos por relação "compound" à palavra "million", mas isso não é feito no português e no italiano. A relação "nummod" é adotada nas línguas românicas, mas "milhões" é head em francês e espanhol e dependente em português e italiano.

Vocês conhecem alguma discussão a respeito?

vcvpaiva commented 3 years ago

oi @MagaliDuran, acho q nao faz muito sentido inventar NUM e depois usar NOUN, mas isso 'e so' achismo meu mesmo.

vi esse issue https://github.com/UniversalDependencies/docs/issues/654 mas acho q nao ajuda muito pra sua pergunta.

MagaliDuran commented 3 years ago

Obrigada, @Valeria de Paiva @.***> !

arademaker commented 3 years ago

Existem muitas discussões rolando no docs (ex https://github.com/UniversalDependencies/docs/issues/596) ou em repositórios específicos sobre coisas relacionadas (ex https://github.com/UniversalDependencies/UD_English-EWT/issues/113).

claudiafreitas commented 3 years ago

NO Bosque-UD a escolha for NUM. Sinceramente, não vejo motivo para mudar, e acho que isso é algo que deve ser levado em conta também: se há um treebank UD anotado e de qualidade razoável, com decisões que são justificáveis (ainda que possam ser discutíveis), me parece um desperdício tremendo decidir de maneira diferente :( Porque então a consequência disso é jogar todo o Bosque-UD fora.

Por analogia ao argumento do plural, teríamos que considerar também o "dois" um NOUN, já que ele aceita flexão de gênero? Quem está interessado em quantidades, eu acho, irá pensar em NUM, não em NOUN. Acho bastante idiossincrático "cem" e "mil" serem NUM, e milhão ser NOUN - ainda que compreensível de uma perspectiva puramente morfológica,

Se todos acharem que o tema deve ser rediscutido, já adianto que sou muito contrária à análise NOUN.

E esse talvez seja também um bom exemplo do que eu comentei sobre a impossibilidade de servir igualmente a "dois senhores" - linguística e pln. Como pra mim a prioridade desses treebanks é PLN, faz pouco sentido o NOUN.

MagaliDuran commented 3 years ago

@claudiafreitas, desculpe se a irritei com minha pergunta. Não é, de forma alguma, minha intenção sugerir que o Bosque não é bom, principalmente porque ele serviu para treinar o parser que estamos utilizando, que é muito bom. O caso é que nem sempre sabemos que decisão do Bosque foi "pensada" e que decisão foi "herdada" de mapeamentos, vide a questão dos auxiliares. Eu comparei os PUDs e vi semelhança com o inglês na anotação de POS e não na anotação de deprels (o inglês anota "dois milhões" como um compound). Queria saber se essa foi uma decisão pensada ou não. Aliás, no inglês, "milhões" é anotado como NOUN quando aparece no plural (não como compound de um número, quando é invariável).

claudiafreitas commented 3 years ago

Reabri. Magali! <3 <3 Irritou nada, a proposta aqui é discussão, desculpa se na pressa a impressao foi essa. Desculpa mesmo. Mas o issue, e essa sua resposta, deixam claro dois pontos, eu acho:

  1. temos inconsistência (geral, independente do Bosque) na anotação dos numerais - dois milhões é flat pelas diretivas. Eu havia escrito "é claramente flat", mas vi que as guidelines são escorregadias, então nao é "claramente":

The flat relation can also be used for other numerals and other numerical expressions that lack phrasal structure. (grifo meu, e o exemplo usado é four thousand) Mas eu continuo achando estranho anotarmos "mil" e "milhão" de maneiras diferentes, embora entenda o argumento.

  1. Estamos diante de um ótimo exemplo da divergência linguística (morfologia) X pln (sentido/informação - e estou simplificando), e acho que precisamos nos posicionar, porque ambas as análises são possíveis e estão sendo usadas.

Eu já me posicionei ;-)

MagaliDuran commented 3 years ago

Há algo interessante nos números: um, dois, duzentos, trezentos... novecentos flexionam em gênero. Mil não flexiona nem em número nem em gênero, mas tem a palavra "milhar" que é sinônimo, porém usado em contextos diferentes. Em quantidades genéricas, não usamos "mil", mas sim "milhares": dezenas/centenas/milhares/milhões/milhões/trilhões de dólares.

arademaker commented 3 years ago

Bem, já tivemos várias discussões parecidas no passado. Entendo o posicionamento da @claudiafreitas, de quem MUITO aprendi e agradeço até hoje. Mas sugiro que as discussões sejam sempre guiadas a bons testes linguísticos.

A pergunta é, a inflexão em número seria o argumento preponderante para determinar NUM vs NOUN? Claudia mostrou o exemplo de dois/duas (e também temos o um/uma) mas são inflexões em gênero. Então a questão aberta pela @MagaliDuran é se a inflexão em número seria o critério para classificar NUM vs NOUN. De qq modo, estou com a @claudiafreitas por enquanto e inconsistências serão resolvidas nos corpora PT que mantenho.

claudiafreitas commented 3 years ago

Graças à discussão, fui olhar a nossa documentação do Bosque , e Magali tem toda a razão quando questiona a anotação. Está lá:

Numerais coletivos (como “dezenas”, “centenas”, “milhares”, etc.), no corpus Bosque-UD, podem estar anotados de duas formas diferentes, conforme o contexto: como NUM, caso seja um número exato (“duas centenas”, “dois bilhões”),ou como NOUN, quando é indefinido (“centenas de pessoas”).  

Por favor, se algum issue também tiver como argumento inconsistência ou estranheza no Bosque, apontem! Eu achava que isso não era uma discussão (porque estava uniforme no Bosque), mas é - como quase tudo é... :(

Eu continuo discordando desse tratamento diferenciado, e sim talvez isso tenha vindo do PALAVRAS ou esteja lá por analogia à anotação do inglês. Mais alguns pontos para a discussão:

Nos dicionários brasileiros, "centena" é substantivo, mas  "milhão" e "bilhão" podem ser subst ou num. :(
Inglês difere do português, já que "hundred" faz "two hundred" (que pra gente pode ser "duzentos" ou "duas centenas"), mas não faz "two hundreds". Mas faz "hundreds of people", e imagino que a diferença na anotação venha daí.  Então não sei. Mas continuo achando que tudo deveria ser NUM, sobretudo porque em português não fazemos essa diferença formal entre os casos. Acho que "dúzia" também deve estar como NOUN - e discordo igualmente.

Minha sugestão é usar NUM sempre, e esses são os meus argumentos:

  1. A língua portuguesa não distingue, formalmente, entre o "uso numeral" e o "uso genérico". E Acho muito pouco motivada a distinção entre o genérico "centenas de pessoas” e o preciso "duas centenas de pessoas”, que eu citei acima. ("duas centenas de pessoas” também pode ser genérico)
  2. Se alguém está interessado em números, dificilmente lembrará de procurar por NOUN
  3. É um tratamento uniforme, que facilita a generalização, sem prejudicar a análise
  4. Não há nada nas guidelines que nos impeça de fazer dessa maneira
amandared commented 3 years ago

Não sei se estou no mesmo "nível" da discussão de vcs, mas vou pontuar algumas coisas também. Gosto da sugestão e dos argumentos da Claudia. Só discordo do primeiro porque acho que é a mesma distinção necessária que se deve fazer entre o numeral (quantificador específico: cinco pessoas) e um pronome indefinido (quantificador genérico: muitas pessoas), mas concordo com os outros argumentos, principalmente o segundo.

Só pra deixar como referência, vou comparar com a anotação do Google, que faz o contrário do que a Claudia está sugerindo. Google classifica as palavras "milhão", "milhões", "bilhão" e "bilhões" como NOUN, seguindo basicamente 2 argumentos:

  1. Se anotar essas palavras como NUM, pode induzir a anotar como NUM outras palavras que também possuem semântica de numeral, mas só podem ser substantivos (como milhares, dezenas, centenas, dúzia, trio, dupla, quarteto, quinteto, etc)
  2. Sintaticamente essas palavras funcionam diferente dos numerais comuns:

    • Mil pessoas morreram =/= Milhões de pessoas morreram.
    • Cinco mil pessoas morreram. =/= Cinco milhões de pessoas morreram. Se usar a construção sintática (com prep "de") com um numeral comum, passa a ser uma estrutura partitiva:
    • Cinco das pessoas morreram. =/= Cinco pessoas morreram.
claudiafreitas commented 3 years ago

Amanda, no Google o uso do NOUN é uma escolha ou simplesmente é fruto de ter sido treinado com material anotado dessa maneira? Tbem acho que vc traz bons pontos:

amandared commented 3 years ago

@claudiafreitas foi uma escolha. Na verdade, no meio do processo percebemos que essas palavras estavam com anotações inconsistentes, daí tomamos essa decisão e revisamos todos os dados anteriores sistematicamente.