Open leoalenc opened 4 years ago
For the compounds N-ADJ
we can surely make a script to check, using the entries for nouns and adjectives. So mosca-morta
is mosca/N
and morta/adj
so we can get the plural for mosca
and plural for morta
and produce the moscas-mortas
.
But this strategy may work only for N-ADJ
compounds, right? BTW, would it be better to implement it as a transducer or as a script? Considering long term maintenance...
@leoalenc, In your grep
you search for adjectives and nouns but entries were found only in nouns. Are you expecting them in the adjectives too? Should we add them to adjectives too? That could potentially double the size of the repository. We need a general way to deal with the fact that almost all nouns can be also used as adjectives, right?
@leoalenc, In your
grep
you search for adjectives and nouns but entries were found only in nouns. Are you expecting them in the adjectives too? Should we add them to adjectives too? That could potentially double the size of the repository. We need a general way to deal with the fact that almost all nouns can be also used as adjectives, right?
@arademaker , procurei por substantivos e adjetivos porque tinha me deparado com outros exemplos que apresentaram erros análogos na geração de diminutivos e pertencem às duas classes.
For the compounds
N-ADJ
we can surely make a script to check, using the entries for nouns and adjectives. Somosca-morta
ismosca/N
andmorta/adj
so we can get the plural formosca
and plural formorta
and produce themoscas-mortas
.But this strategy may work only for
N-ADJ
compounds, right? BTW, would it be better to implement it as a transducer or as a script? Considering long term maintenance...
@arademaker, parece mais fácil implementar isso como um programa procedural na linha do que vocês esboçou. E você tem razão, compostos N+N se comportam de maneira diferente, só o primeiro membro se flexionando. E há vários outros tipos de compostos. É uma questão complexa, por enquanto, seria suficiente levantar os casos que não apresentam plural e resolver isso manualmente ou através de algum script na linha do que você sugeriu, dependendo do número de casos encontrados.
@arademaker , de fato, todo adjetivo pode ocorrer na posição do substantivo, mas isso não implica que seja um substantivo no léxico. Por exemplo, o carro vermelho é econômico, o azul consome muita gasolina. Esse exemplo não motiva a inclusão de azul como substantivo no dicionário. Está subentendida a palavra carro, mencionada no contexto anterior. No léxico, só dizemos que um adjetivo é substantivo quando possui uma semântica especial. Por exemplo, azul para designar o nome da cor, por exemplo, o azul é uma cor tranquilizante. No caso de última mencionado em #57, o dicionário Houaiss de fato apresenta uma semântica especial tanto para acepção da palavra como substantivo feminino quanto masculino, além das acepção como adjetivo.
OK, vamos considerar que o escopo deste issue é apenas:
por enquanto, seria suficiente levantar os casos que não apresentam plural e resolver isso manualmente ou através de algum script na linha do que você sugeriu, dependendo do número de casos encontrados.
Já sabemos que temos ~8K compostos com hífens mas muitos podem não ser N-ADJ
. O script deverá filtrar formas com hífen, verificar se primeira palavra é N e segunda é ADJ, e então procurar pela variante plural.
As pointed out in issues #61 and #64, some nouns lack a plural form. This problem seems to be widespread, e.g. the plural form of the following N+Adj compound is missing:
There is no linguistic reason for this gap, compare the analogous compound below:
So it would be very useful to automatically check the whole inventory of nouns and adjectives for missing plural forms in order to fill in these gaps.