LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

Forms related to "cabra" and the problem of lemmatizing lexicalized diminutives #97

Open leoalenc opened 3 years ago

leoalenc commented 3 years ago

@arademaker, continuando #79, temos:

~/MorphoBr/nouns$ grep -P "\tcabrito\+" nouns-a* ../diminutives/*.dict

nouns-aa.dict:cabrita cabrito+N+F+SG nouns-aa.dict:cabritas cabrito+N+F+PL nouns-aa.dict:cabritinha cabrito+N+DIM+F+SG nouns-aa.dict:cabritinhas cabrito+N+DIM+F+PL nouns-aa.dict:cabritinho cabrito+N+DIM+M+SG nouns-aa.dict:cabritinhos cabrito+N+DIM+M+PL nouns-aa.dict:cabritita cabrito+N+DIM+F+SG nouns-aa.dict:cabrititas cabrito+N+DIM+F+PL nouns-aa.dict:cabritito cabrito+N+DIM+M+SG nouns-aa.dict:cabrititos cabrito+N+DIM+M+PL nouns-aa.dict:cabrito cabrito+N+M+SG nouns-aa.dict:cabritos cabrito+N+M+PL ../diminutives/deadjectivals.mbr.dict:cabritazinha cabrito+A+DIM+F+SG ../diminutives/deadjectivals.mbr.dict:cabritazinhas cabrito+A+DIM+F+PL ../diminutives/deadjectivals.mbr.dict:cabritinha cabrito+A+DIM+F+SG ../diminutives/deadjectivals.mbr.dict:cabritinhas cabrito+A+DIM+F+PL ../diminutives/deadjectivals.mbr.dict:cabritinho cabrito+A+DIM+M+SG ../diminutives/deadjectivals.mbr.dict:cabritinhos cabrito+A+DIM+M+PL ../diminutives/deadjectivals.mbr.dict:cabritozinho cabrito+A+DIM+M+SG ../diminutives/deadjectivals.mbr.dict:cabritozinhos cabrito+A+DIM+M+PL ../diminutives/denominals.mbr.dict:cabritazinha cabrito+N+DIM+F+SG ../diminutives/denominals.mbr.dict:cabritazinhas cabrito+N+DIM+F+PL ../diminutives/denominals.mbr.dict:cabritinha cabrito+N+DIM+F+SG ../diminutives/denominals.mbr.dict:cabritinhas cabrito+N+DIM+F+PL ../diminutives/denominals.mbr.dict:cabritinho cabrito+N+DIM+M+SG ../diminutives/denominals.mbr.dict:cabritinhos cabrito+N+DIM+M+PL ../diminutives/denominals.mbr.dict:cabritozinho cabrito+N+DIM+M+SG ../diminutives/denominals.mbr.dict:cabritozinhos cabrito+N+DIM+M+PL

Precisamos:

1) estabelecer os lemas etimologicamente relacionados a cabra 2) determinar os diminutivos correspondentes 3) corrigir o recurso com base em 1) e 2), eliminando entradas espúrias e, eventualmente, completando as faltantes:

Os lemas, em princípio, são: cabra+N+F cabrita+N+F cabrito+N+M

Existe também o cabra:

grep -P "\tcabra\+N\+M" nouns-a*

nouns-aa.dict:cabra cabra+N+M+SG nouns-aa.dict:cabras cabra+N+M+PL

A questão não parece, contudo, trivial. Relaciona-se a questões amplas de design. Por exemplo, deve haver lemas diferentes para formas derivadas lexicalizadas com significado não mais composicional, como cabrita?

leoalenc commented 3 years ago

@arademaker, complementando, o melhor seria corrigir a base herdada do DELAF e do FreeLing e, depois, rodar o gerador de diminutivos em (z)inh.

arademaker commented 3 years ago

Acho que seria bem complicado agora tentar aplicar ajustes nos recursos que usamos. Seja porque eles próprios já evoluíram ou porque ao longo destes anos nós já mudamos várias entradas que vieram deles.

Minha sugestão é sim pensarmos em quais testes de consistência podemos ter.

Para frente, precisamos definir o que são dados base/primitivos e o que são dados gerados por regras. De tal forma que, para os diminutivos e outras formas geradas por regras, teríamos uma maneira de reexecutar a geração a partir dos dados base/primitivos.

arademaker commented 3 years ago

Em tempo, como ficarão os diminutivos na modelagem da PorGram? Seriam regras certo? E o que chamo acima de dados base seriam talvez as entradas lexicais no léxico.tdl e no arquivo das formas irregular.