LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

diminutivos mal formados #72

Open leoalenc opened 4 years ago

leoalenc commented 4 years ago

Cerca de 6500 erros foram encontrados nos diminutivos gerados a partir dos substantivos e adjetivos provenientes dos recursos incorporados. Esses erros decorrem (i) de falhas na filtragem de bases e na modelação dos processos morfológicos e (ii) erros dos recursos utilizados, tais como relatados em #64, #65, #66, #67, #68, #70 e #71. Os erros do primeiro tipo distribuem-se nas seguintes classes principais:

1) Abreviaturas, letras, símbolos químicos etc. como BCG, b, Ba, Br e Bq não podem funcionar como bases de processos morfológicos de derivação:

BCGzinho        bcg+N+DIM+M+SG
Bazinho ba+N+DIM+M+SG
Bazinhos        ba+N+DIM+M+PL
Binha   ba+N+DIM+M+SG
Binhas  ba+N+DIM+M+PL
Bqzinho bq+N+DIM+M+SG
Brzinho br+N+DIM+M+SG
Bzinho  b+N+DIM+M+SG

2) Plural de diminutivos derivados de bases em -ão ou de compostos (a base ou o primeiro membro do composto deve estar no plural):

abalroaçãozinhas        abalroação+N+DIM+F+PL
cabeça-chatazinhos      cabeça-chata+N+DIM+M+PL

3) Diminutivos derivados de compostos (o primeiro membro não deve perder o acento):

ze-povinhozinho      zé-povinho+N+DIM+M+SG
arademaker commented 4 years ago

@leoalenc este issue foi fechado com o PR #73 ? No PR vc menciona que o script teria que ser rodado nos dados, avise se for o caso e como exatamente rodar se vc quiser que eu rode.

leoalenc commented 4 years ago

@arademaker, como expliquei, foram detectados dois tipos de erros nos novos diminutivos: o primeiro tipo são os de modelagem, o segundo tipo são erros dos recursos utilizados como entrada do programa de geração de diminutivos. O primeiro tipo de erro, que inclui o maior número de casos, foi corrigido com o PR. No entanto, vários erros dos recursos que utilizamos ainda não foram corrigidos, assunto das questões #64 a #68, #70 e #71. Proponho, então, que fechemos estas questões antes de rodar o script para gerar as novos diminutivos. Vamos dividir essas questões entre nós? Depois, seria interessante se você ou o @lucasrct rodasse o script pra ver se as minhas instruções de uso estão claras. Então, poderemos fechar esta questão.

leoalenc commented 4 years ago

@arademaker, para gerar o script com os novos diminutivos, precisamos resolver #64, #65 e #68. As demais questões são de longo prazo, podemos deixar para o futuro.