LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

masculine nouns lacking a plural form #61

Closed leoalenc closed 4 years ago

leoalenc commented 4 years ago

The following masculine nouns lack a plural form:

biômetra
bumba
cola
deus-nos-acuda
ébola
fecha
garanganja
hinaiana
mimansa
paraarranca
ronga
tetra
vira

Some of these are proper nouns. However, all should have a plural form.

leoalenc commented 4 years ago

As for the word “paraarranca”, the Infopédia dictionary spells this word with a hyphen: “para-arranca”.

arademaker commented 4 years ago

We need some criteria for the inclusion of words in the resource. Don’t you think?

arademaker commented 4 years ago

For example, bumba.

arademaker commented 4 years ago

For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?

leoalenc commented 4 years ago

For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?

Dicio Dictionary registers the word “geômetra” as a masculine and feminine noun derived from “geometria”. So we can assume an analogous derivation from “biometria”.

leoalenc commented 4 years ago

We need some criteria for the inclusion of words in the resource. Don’t you think?

I agree. Criteria could be existence in dictionaries and in corpora.

leoalenc commented 4 years ago

For example, bumba.

In the print version of the Houaiss dictionary, there is the masculine noun bumba, so we should include the corresponding plural form.

leoalenc commented 4 years ago

For example, bumba.

In the print version of the Houaiss dictionary, there is the masculine form of this word.

arademaker commented 4 years ago

@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando grep, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.

lucasrct commented 4 years ago

Ao verificar no Houaiss:

bumba é um substantivo masculino ou uma interjeição, por isso, adicionei o respectivo plural bumbas, ver

cola é um substantivo feminino e também masculino (de acodro com o Houaiss 'vento forte das costas das Filipinas (arquipélago a sudeste da Ásia)'), executando

/MorphoBr/nouns$ grep "[[:space:]]cola+" *.dict a-c.delaf.dict:cola cola+N+F+SG a-c.delaf.dict:cola cola+N+M+SG a-c.delaf.dict:colas cola+N+F+PL

faltando apenas a o plural da forma masculina. Também já feito.

Quanto ao substantivo masculino ébola, Houaiss considera apenas ebola, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?

leoalenc commented 4 years ago

Quanto ao substantivo masculino ébola, Houaiss considera apenas ebola, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

leoalenc commented 4 years ago

@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando grep, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.

Sim, isso é importante. Essas palavras geraram erros na formação de diminutivos por não conterem a forma do plural. A palavra tetra se comporta como problema, cujos diminutivos são probleminha e problemazinho. O arquivo .lexc do gerador de diminutivos precisa tanto do singular quanto do plural desses substantivos. A versão mais recente desse arquivo-fonte será disponibilizada em breve.

arademaker commented 4 years ago

Legal, então seria bom depois colocar aqui quais comandos produziram os erros que resultaram nesta lista. Quando terminarmos o #59, a execução destes comandos novamente irá ajudar a checar se não vieram novos missing plurals da expansão do @heliolbs

lucasrct commented 4 years ago

Adicionado o plural de fecha substantivo masculino (presente no Houaiss). Adicionado o plural de garanganja subs. masc. (presente no Infopédia) Adicionado o plural de ébola bem como ebola (sem acento) e seu plural também (subs. masc.) (presente no Houaiss). Adicionado o plural de mimansa subs. masc. (presente no Houaiss). Adicionado o plural de ronga subs. masc (presente no Houaiss). Adicionado o plural de tetra subs masc (presente no Houaiss).

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Quanto a deus-nos-acuda, não encontrei em nenhum dicionário, entretanto aqui: http://www.nilc.icmc.usp.br/nilc/pc/comps_todoComposto.htm (página do Núcleo Interinstitucional de Linguística Computacional do ICMC/USP) é dito que deus-nos-acuda é uma palavra invariável, a justificativa deles é:

substantivo composto por justaposição, sintagmático. Como seu sintagma interno não se enquadre em nenhum dos padrões variáveis previstos pelas regras de flexão de substantivo composto sintagmático, constitui palavra invariável. Portanto: "dois deus-nos-acuda".

Quanto a paraarranca, só aparece no Infopédia e com hífen, trocamos?

arademaker commented 4 years ago

Sim para para-arranca. De nossas fontes apenas uma conhece e então seguimos o que ela indica.

Para deus-nos-acuda, bom você ter ido ao site do NILC, o issue #37 trata exatamente de como iremos incorporar o DELACF (ainda não fizemos isso). Não sei a relação deste site que vc achou com o DELACF (parte do UNITEX) mas como é do mesmo grupo, muito provavelmente o site deve ter influenciado o recurso ou o contrário.

arademaker commented 4 years ago

@leoalenc, qual sua sugestão sobre o caso deus-nos-acuda em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.

arademaker commented 4 years ago

Outro comentário importante em relação ao que @leoalenc escreveu:

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)

leoalenc commented 4 years ago

Outro comentário importante em relação ao que @leoalenc escreveu:

Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.

O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)

Sim, @arademaker, contemplar português europeu e brasileiro. Mas se mudarmos o nome, perdemos o link com o artigo publicado. Portanto, deixar claro no readme que são abrangidas as duas variedades.

arademaker commented 4 years ago

Não perdemos o link não. O GitHub preserva e faz um redirect. Mas podemos manter o nome por enquanto. OK, combinado que seremos abrangentes.

leoalenc commented 4 years ago

@leoalenc, qual sua sugestão sobre o caso deus-nos-acuda em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.

@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.

lucasrct commented 4 years ago

@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.

@leoalenc Feito.

@arademaker Fiz o push no branch issue-61, posso fazer o merge?

arademaker commented 4 years ago

@lucasrct , faz um PR do branch para o master que eu reviso e aprovo...

arademaker commented 4 years ago

@leoalenc o @lucasrct comentou acima:

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?

lucasrct commented 4 years ago

@leoalenc o @lucasrct comentou acima:

Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.

Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?

@arademaker Eu acho que me expressei mal, quis dizer que apenas a a entrada da palavra como subs. fem. possuía o plural já nos arqruivos, faltando apenas o referente ao plural do subs. masc.

arademaker commented 4 years ago

OK. Mas a pergunta talvez permaneça. Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar? Vou abrir outro issue para esta discussão.

arademaker commented 4 years ago

Confirmei agora que uma das formas estava mesmo perdida em outro arquivo:

% rg "^viras?\t"  nouns/* adjectives/*
nouns/q-z.delaf.dict
15856:vira  vira+N+F+SG
15857:vira  vira+N+M+SG
15858:viras vira+N+M+PL

nouns/nouns.gfl.dict
94993:viras vira+N+F+PL

Mas um argumento para a reorganização dos arquivos que vamos fazer depois do #59