Closed leoalenc closed 4 years ago
As for the word “paraarranca”, the Infopédia dictionary spells this word with a hyphen: “para-arranca”.
We need some criteria for the inclusion of words in the resource. Don’t you think?
For example, bumba
.
https://dicionario.priberam.org/bumba, it is an interjection
http://michaelis.uol.com.br/busca?r=0&f=0&t=0&palavra=bumba is only an interjection.
https://www.infopedia.pt/dicionarios/lingua-portuguesa/bumba, it is also a noun FEM (possible with plural bumbas but it doesn't say it)
https://en.wiktionary.org/wiki/bumba doesn't know it for Portuguese.
https://www.dicio.com.br/bumba/ says it is an inflected form of a verb only.
For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?
For biômetra, http://michaelis.uol.com.br/busca?id=9xbx classify as adj. Should we change it to ADJ?
Dicio Dictionary registers the word “geômetra” as a masculine and feminine noun derived from “geometria”. So we can assume an analogous derivation from “biometria”.
We need some criteria for the inclusion of words in the resource. Don’t you think?
I agree. Criteria could be existence in dictionaries and in corpora.
For example,
bumba
.
- https://dicionario.priberam.org/bumba, it is an interjection
- http://michaelis.uol.com.br/busca?r=0&f=0&t=0&palavra=bumba is only an interjection.
- https://www.infopedia.pt/dicionarios/lingua-portuguesa/bumba, it is also a noun FEM (possible with plural bumbas but it doesn't say it)
- https://en.wiktionary.org/wiki/bumba doesn't know it for Portuguese.
- https://www.dicio.com.br/bumba/ says it is an inflected form of a verb only.
In the print version of the Houaiss dictionary, there is the masculine noun bumba, so we should include the corresponding plural form.
For example,
bumba
.
- https://dicionario.priberam.org/bumba, it is an interjection
- http://michaelis.uol.com.br/busca?r=0&f=0&t=0&palavra=bumba is only an interjection.
- https://www.infopedia.pt/dicionarios/lingua-portuguesa/bumba, it is also a noun FEM (possible with plural bumbas but it doesn't say it)
- https://en.wiktionary.org/wiki/bumba doesn't know it for Portuguese.
- https://www.dicio.com.br/bumba/ says it is an inflected form of a verb only.
In the print version of the Houaiss dictionary, there is the masculine form of this word.
@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando grep
, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.
Ao verificar no Houaiss:
bumba
é um substantivo masculino ou uma interjeição, por isso, adicionei o respectivo plural bumbas
, ver
cola
é um substantivo feminino e também masculino (de acodro com o Houaiss 'vento forte das costas das Filipinas (arquipélago a sudeste da Ásia)'), executando
/MorphoBr/nouns$ grep "[[:space:]]cola+" *.dict a-c.delaf.dict:cola cola+N+F+SG a-c.delaf.dict:cola cola+N+M+SG a-c.delaf.dict:colas cola+N+F+PL
faltando apenas a o plural da forma masculina. Também já feito.
Quanto ao substantivo masculino ébola
, Houaiss considera apenas ebola
, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?
Quanto ao substantivo masculino
ébola
, Houaiss considera apenasebola
, sem acento, enquanto Infopédia considera apenas com acento e o Wiktionary considera os dois, deixamos do jeito que está ou adicionamos a versão sem acento?
Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.
@leoalenc seria interessante vc documentar como chegou a lista inicial deste issue. Pelo que vc buscou para obter esta lista? Note que issues #61 até #65 potencialmente terão que ser revistos depois de fecharmos o issue #59. Mas nestes issues, como vc colocou seu comando
grep
, podemos tentar reexecutar o comando para verificar novas entradas suspeitas que vierem do merge com a expansão feita pelo Hélio.
Sim, isso é importante. Essas palavras geraram erros na formação de diminutivos por não conterem a forma do plural. A palavra tetra se comporta como problema, cujos diminutivos são probleminha e problemazinho. O arquivo .lexc do gerador de diminutivos precisa tanto do singular quanto do plural desses substantivos. A versão mais recente desse arquivo-fonte será disponibilizada em breve.
Legal, então seria bom depois colocar aqui quais comandos produziram os erros que resultaram nesta lista. Quando terminarmos o #59, a execução destes comandos novamente irá ajudar a checar se não vieram novos missing plurals
da expansão do @heliolbs
Adicionado o plural de fecha
substantivo masculino (presente no Houaiss).
Adicionado o plural de garanganja
subs. masc. (presente no Infopédia)
Adicionado o plural de ébola
bem como ebola (sem acento) e seu plural também (subs. masc.) (presente no Houaiss).
Adicionado o plural de mimansa
subs. masc. (presente no Houaiss).
Adicionado o plural de ronga
subs. masc (presente no Houaiss).
Adicionado o plural de tetra
subs masc (presente no Houaiss).
Quanto à palavra vira
, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira
como subs. masc.
Quanto a deus-nos-acuda, não encontrei em nenhum dicionário, entretanto aqui: http://www.nilc.icmc.usp.br/nilc/pc/comps_todoComposto.htm (página do Núcleo Interinstitucional de Linguística Computacional do ICMC/USP) é dito que deus-nos-acuda é uma palavra invariável, a justificativa deles é:
substantivo composto por justaposição, sintagmático. Como seu sintagma interno não se enquadre em nenhum dos padrões variáveis previstos pelas regras de flexão de substantivo composto sintagmático, constitui palavra invariável. Portanto: "dois deus-nos-acuda".
Quanto a paraarranca,
só aparece no Infopédia e com hífen, trocamos?
Sim para para-arranca
. De nossas fontes apenas uma conhece e então seguimos o que ela indica.
Para deus-nos-acuda, bom você ter ido ao site do NILC, o issue #37 trata exatamente de como iremos incorporar o DELACF (ainda não fizemos isso). Não sei a relação deste site que vc achou com o DELACF (parte do UNITEX) mas como é do mesmo grupo, muito provavelmente o site deve ter influenciado o recurso ou o contrário.
@leoalenc, qual sua sugestão sobre o caso deus-nos-acuda
em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.
Outro comentário importante em relação ao que @leoalenc escreveu:
Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.
O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)
Outro comentário importante em relação ao que @leoalenc escreveu:
Acho que uma forma é português europeu e a outra brasileiro, como indicam os dois dicionário citados. Portanto, acho bom incluir as duas.
O nome do recurso é Morpho-Br, gera a ideia que nosso foco seria nas formas PB (português do Brasil) e não nas formas do PT (português europeu). Mas, de fato, usamos como ponto de partida recursos que cobrem ambos PT e PB. Talvez seja o caso mudar o nome? Ou deixar mais claro no README? Eu decididamente gosto da ideia de um recurso com cobertura ampla do português (como fazemos na http://openwordnet-pt.org)
Sim, @arademaker, contemplar português europeu e brasileiro. Mas se mudarmos o nome, perdemos o link com o artigo publicado. Portanto, deixar claro no readme que são abrangidas as duas variedades.
Não perdemos o link não. O GitHub preserva e faz um redirect. Mas podemos manter o nome por enquanto. OK, combinado que seremos abrangentes.
@leoalenc, qual sua sugestão sobre o caso
deus-nos-acuda
em particular para podermos fechar este issue? Sobre os compostos em geral, podemos discutir no #37.
@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.
@arademaker, Houaiss trata essa palavra como lápis, ou seja, substantivo de dois números, singular igual ao plural, que precisamos então incluir.
@leoalenc Feito.
@arademaker Fiz o push no branch issue-61, posso fazer o merge?
@lucasrct , faz um PR do branch para o master que eu reviso e aprovo...
@leoalenc o @lucasrct comentou acima:
Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.
Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?
@leoalenc o @lucasrct comentou acima:
Quanto à palavra vira, é tanto subs. masc. quanto subs. fem., sendo que apenas o último possui plural. Adicionado o plural de vira como subs. masc.
Isto é interessante. Considerando que aceitamos o que o Lucas descobriu. Então quando seu script de diminutivos roda e encontra casos de palavras que não tem um plural, a lista destas palavras é apenas um warning para vc, certo? Pode comentar? Teremos mais casos como este? Deveriamos ter uma TAG específica para isso? Poderia ajudar nos processos, não?
@arademaker Eu acho que me expressei mal, quis dizer que apenas a a entrada da palavra como subs. fem. possuía o plural já nos arqruivos, faltando apenas o referente ao plural do subs. masc.
OK. Mas a pergunta talvez permaneça. Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar? Vou abrir outro issue para esta discussão.
Confirmei agora que uma das formas estava mesmo perdida em outro arquivo:
% rg "^viras?\t" nouns/* adjectives/*
nouns/q-z.delaf.dict
15856:vira vira+N+F+SG
15857:vira vira+N+M+SG
15858:viras vira+N+M+PL
nouns/nouns.gfl.dict
94993:viras vira+N+F+PL
Mas um argumento para a reorganização dos arquivos que vamos fazer depois do #59
The following masculine nouns lack a plural form:
Some of these are proper nouns. However, all should have a plural form.