Open leoalenc opened 3 years ago
@arademaker , outro caso parecido, agora só com duas entradas:
grep
-P "\tcavalona+" adjectives-a*.dict
adjectives-aa.dict:cavalona cavalona+A+F+SG adjectives-aa.dict:cavalonas cavalona+A+F+PL
Na verdade, o lema seria cavalão. Outro caso:
grep
-P "\troxa+" adjectives-a*.dict
adjectives-ae.dict:roxa roxa+A+F+SG adjectives-ae.dict:roxas roxa+A+F+PL adjectives-ae.dict:roxinha roxa+A+DIM+F+SG adjectives-ae.dict:roxinhas roxa+A+DIM+F+PL
Existe o lema roxo com 4 formas... Em anexo, uma lista de 352 casos suspeitos, retirados da PorGram. erros.txt
@arademaker, está me parecendo que esses dados estranhos foram garimpados em corpus e incorporados sem o devido cuidado em um dos recursos que incorporamos. Muitos casos são de formas que existem como substantivos, o que me faz suspeitar de erros de etiquetagem automática. Veja:
grep -P "\tabotoadeira\+" adjectives-a*.dict
adjectives-aa.dict:abotoadeira abotoadeira+A+F+SG adjectives-aa.dict:abotoadeiras abotoadeira+A+F+PL
grep -P "\tabotoadeira\+" ../nouns/nouns-a*.dict
../nouns/nouns-aa.dict:abotoadeira abotoadeira+N+F+SG ../nouns/nouns-aa.dict:abotoadeiras abotoadeira+N+F+PL
Faz sentido manter esses adjetivos? De qualquer forma, há o problema apontado das lacunas de formas. Todo adjetivo do português deve ter 4 formas (2 números x 2 gêneros). Tendo agora a eliminar itens dessa lista, seguindo estes critérios:
1) existe a forma com lema masculino, por exemplo, roxas roxo+A+F+PL 2) existe o substantivo correspondente (aplicável sobretudo aos casos de adjetivos com apenas duas formas com o mesmo gênero do substantivo)
Para os casos de prováveis adjetivos uniformes, como abacate citado acima, com apenas 3 formas, criamos a quarta forma faltante. Aqui está a lista atualizada: erros02.txt
Em 61c1043 resolvi os casos particulares listados acima. Desculpe, mas não ficou claro para mim @leoalenc a estratégia sugerida. Para abacate
faltava uma forma, mas agora temos nos adjectivos derivados uma forma faltante também, certo?
O mesmo ocorre para roxo e cavalão, preciso ainda chegar as formas derivadas. Eu concordo que deveríamos evitar repetir como adjetivos o que não precisar ser repetido por estar como substantivo, mas quais serão os critérios para colocar ou não como adjetivo? distribucional? semântico (aceita ou não gradação)?
E como sua sugestão aqui se contrasta com https://github.com/LR-POR/MorphoBr/issues/90#issuecomment-853537826 ?
@arademaker , trabalhando na integração, na PorGram, dos adjetivos do recurso, por meio da versão simplificada gerada pelo meu script em Python, deparei-me com o seguinte problema da versão original:
grep
-P "\tabacate+" adjectives-a*.dictEstá faltando a forma de masculino singular! Na verdade, na versão não simplificada do MorphoBr, a cada adjetivo, i.e., a cada lema adjetival, deve corresponder quatro entradas, excetuando aquelas com DIM e AUG. Talvez haja outros casos como esse? A propósito, descobri essa lacuna por acaso, pois gerou algo estranho no TDL.