Open leoalenc opened 3 years ago
@arademaker, complementando, o melhor seria corrigir a base herdada do DELAF e do FreeLing e, depois, rodar o gerador de diminutivos em (z)inh.
Acho que seria bem complicado agora tentar aplicar ajustes nos recursos que usamos. Seja porque eles próprios já evoluíram ou porque ao longo destes anos nós já mudamos várias entradas que vieram deles.
Minha sugestão é sim pensarmos em quais testes de consistência podemos ter.
Para frente, precisamos definir o que são dados base/primitivos e o que são dados gerados por regras. De tal forma que, para os diminutivos e outras formas geradas por regras, teríamos uma maneira de reexecutar a geração a partir dos dados base/primitivos.
Em tempo, como ficarão os diminutivos na modelagem da PorGram? Seriam regras certo? E o que chamo acima de dados base seriam talvez as entradas lexicais no léxico.tdl e no arquivo das formas irregular.
@arademaker, continuando #79, temos:
~/MorphoBr/nouns$ grep -P "\tcabrito\+" nouns-a* ../diminutives/*.dict
Precisamos:
1) estabelecer os lemas etimologicamente relacionados a cabra 2) determinar os diminutivos correspondentes 3) corrigir o recurso com base em 1) e 2), eliminando entradas espúrias e, eventualmente, completando as faltantes:
Os lemas, em princípio, são: cabra+N+F cabrita+N+F cabrito+N+M
Existe também o cabra:
grep -P "\tcabra\+N\+M" nouns-a*
A questão não parece, contudo, trivial. Relaciona-se a questões amplas de design. Por exemplo, deve haver lemas diferentes para formas derivadas lexicalizadas com significado não mais composicional, como cabrita?