LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

adjectives missing some forms #94

Open leoalenc opened 3 years ago

leoalenc commented 3 years ago

@arademaker , trabalhando na integração, na PorGram, dos adjetivos do recurso, por meio da versão simplificada gerada pelo meu script em Python, deparei-me com o seguinte problema da versão original:

grep -P "\tabacate+" adjectives-a*.dict

adjectives-aa.dict:abacate abacate+A+F+SG adjectives-aa.dict:abacates abacate+A+F+PL adjectives-aa.dict:abacates abacate+A+M+PL

Está faltando a forma de masculino singular! Na verdade, na versão não simplificada do MorphoBr, a cada adjetivo, i.e., a cada lema adjetival, deve corresponder quatro entradas, excetuando aquelas com DIM e AUG. Talvez haja outros casos como esse? A propósito, descobri essa lacuna por acaso, pois gerou algo estranho no TDL.

leoalenc commented 3 years ago

@arademaker , outro caso parecido, agora só com duas entradas:

grep -P "\tcavalona+" adjectives-a*.dict

adjectives-aa.dict:cavalona cavalona+A+F+SG adjectives-aa.dict:cavalonas cavalona+A+F+PL

Na verdade, o lema seria cavalão. Outro caso:

grep -P "\troxa+" adjectives-a*.dict

adjectives-ae.dict:roxa roxa+A+F+SG adjectives-ae.dict:roxas roxa+A+F+PL adjectives-ae.dict:roxinha roxa+A+DIM+F+SG adjectives-ae.dict:roxinhas roxa+A+DIM+F+PL

Existe o lema roxo com 4 formas... Em anexo, uma lista de 352 casos suspeitos, retirados da PorGram. erros.txt

leoalenc commented 3 years ago

@arademaker, está me parecendo que esses dados estranhos foram garimpados em corpus e incorporados sem o devido cuidado em um dos recursos que incorporamos. Muitos casos são de formas que existem como substantivos, o que me faz suspeitar de erros de etiquetagem automática. Veja:

grep -P "\tabotoadeira\+" adjectives-a*.dict

adjectives-aa.dict:abotoadeira abotoadeira+A+F+SG adjectives-aa.dict:abotoadeiras abotoadeira+A+F+PL

grep -P "\tabotoadeira\+" ../nouns/nouns-a*.dict

../nouns/nouns-aa.dict:abotoadeira abotoadeira+N+F+SG ../nouns/nouns-aa.dict:abotoadeiras abotoadeira+N+F+PL

Faz sentido manter esses adjetivos? De qualquer forma, há o problema apontado das lacunas de formas. Todo adjetivo do português deve ter 4 formas (2 números x 2 gêneros). Tendo agora a eliminar itens dessa lista, seguindo estes critérios:

1) existe a forma com lema masculino, por exemplo, roxas roxo+A+F+PL 2) existe o substantivo correspondente (aplicável sobretudo aos casos de adjetivos com apenas duas formas com o mesmo gênero do substantivo)

Para os casos de prováveis adjetivos uniformes, como abacate citado acima, com apenas 3 formas, criamos a quarta forma faltante. Aqui está a lista atualizada: erros02.txt

arademaker commented 3 years ago

Em 61c1043 resolvi os casos particulares listados acima. Desculpe, mas não ficou claro para mim @leoalenc a estratégia sugerida. Para abacate faltava uma forma, mas agora temos nos adjectivos derivados uma forma faltante também, certo?

image

O mesmo ocorre para roxo e cavalão, preciso ainda chegar as formas derivadas. Eu concordo que deveríamos evitar repetir como adjetivos o que não precisar ser repetido por estar como substantivo, mas quais serão os critérios para colocar ou não como adjetivo? distribucional? semântico (aceita ou não gradação)?

arademaker commented 3 years ago

E como sua sugestão aqui se contrasta com https://github.com/LR-POR/MorphoBr/issues/90#issuecomment-853537826 ?