LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

DELAF format error #44

Closed odanoburu closed 6 years ago

odanoburu commented 6 years ago

há 41 verbos sem clíticos com erro de formatação: :, deveria ser ,.

abstinhas:,abster.V:I2s
advéns:,advir.V:P2s
advinhas:,advir.V:I2s
atinhas:,ater.V:I2s
avéns:,avir.V:P2s
avinhas:,avir.V:I2s
continhas:,conter.V:I2s
contravéns:,contravir.V:P2s
contravinhas:,contravir.V:I2s
convéns:,convir.V:P2s
...

@leoalenc será que herdamos esses erros?

odanoburu commented 6 years ago

outros quatro erros:

dessorri,dessorrir.V:Y2S
entressorri,entressorrir.V:Y2S
ri,rir.V:Y2S
sorri,sorrir.V:Y2S

o S (maiúsculo) indica presente do subjuntivo, mas nesse caso deveria ser minúsculo, indicando o número singular.

leoalenc commented 6 years ago

@odanoburu O meu programa em linguagem piton que faz a conversão do formato do dicionário de São Carlos para o nosso consegue lidar com este tipo de problema:

abstinhas:,abster.V:I2s

Portanto, o erro não foi herdado.

leoalenc commented 6 years ago

@odanoburu no caso do S indicando singular, infelizmente o erro foi herdado. Vou incluir arquivo com as correções diretamente no ramo mestre. As entradas com um número seguido da etiqueta do subjuntivo devem ser eliminadas.

arademaker commented 6 years ago

@leoalenc se vc for incluir novo arquivo, precisaremos também saber quais entradas dos arquivos agora no master deverão ser apagadas.

São 4 entradas no arquivo Delaf2015v04.dic que geraram erros nos arquivos em verbs/ certo? Seriam apenas os casos abaixo?

leme:tmp ar$ grep Y2S Delaf2015v04.dic
dessorri,dessorrir.V:Y2S
entressorri,entressorrir.V:Y2S
ri,rir.V:Y2S
sorri,sorrir.V:Y2S

Procurando nos nossos arquivos:

leme:tmp ar$ egrep "^dessorri\t" ../verbs/*
../verbs/verbs.gfl.dict:dessorri    dessorrir+V+IMP+2+SG
../verbs/verbs.gfl.dict:dessorri    dessorrir+V+INF
../verbs/verbs.gfl.dict:dessorri    dessorrir+V+INF+1+SG
../verbs/verbs.gfl.dict:dessorri    dessorrir+V+INF+3+SG
../verbs/xau.delaf.dict:dessorri    dessorrir+V+IMP+2+SBJR
../verbs/xau.delaf.dict:dessorri    dessorrir+V+PRF+1+SG
../verbs/xau.delaf.dict:dessorri    dessorrir+V+PRS+3+SG
leme:tmp ar$ egrep "^ri\t" ../verbs/*
../verbs/verbs.gfl.dict:ri  rir+V+IMP+2+SG
../verbs/verbs.gfl.dict:ri  rir+V+INF
../verbs/verbs.gfl.dict:ri  rir+V+INF+1+SG
../verbs/verbs.gfl.dict:ri  rir+V+INF+3+SG
../verbs/xbs.delaf.dict:ri  rer+V+PRF+1+SG
../verbs/xbs.delaf.dict:ri  rir+V+IMP+2+SBJR
../verbs/xbs.delaf.dict:ri  rir+V+PRF+1+SG
../verbs/xbs.delaf.dict:ri  rir+V+PRS+3+SG
leme:tmp ar$ egrep "^sorri\t" ../verbs/*
../verbs/verbs.gfl.dict:sorri   sorrir+V+IMP+2+SG
../verbs/verbs.gfl.dict:sorri   sorrir+V+INF
../verbs/verbs.gfl.dict:sorri   sorrir+V+INF+1+SG
../verbs/verbs.gfl.dict:sorri   sorrir+V+INF+3+SG
../verbs/xbu.delaf.dict:sorri   sorrir+V+IMP+2+SBJR
../verbs/xbu.delaf.dict:sorri   sorrir+V+PRF+1+SG
../verbs/xbu.delaf.dict:sorri   sorrir+V+PRS+3+SG
leme:tmp ar$ egrep "^entressorri\t" ../verbs/*
../verbs/verbs.gfl.dict:entressorri entressorrir+V+IMP+2+SG
../verbs/verbs.gfl.dict:entressorri entressorrir+V+INF
../verbs/verbs.gfl.dict:entressorri entressorrir+V+INF+1+SG
../verbs/verbs.gfl.dict:entressorri entressorrir+V+INF+3+SG
../verbs/xba.delaf.dict:entressorri entressorrir+V+IMP+2+SBJR
../verbs/xba.delaf.dict:entressorri entressorrir+V+PRF+1+SG
../verbs/xba.delaf.dict:entressorri entressorrir+V+PRS+3+SG
leoalenc commented 6 years ago

@arademaker sim, são só quatro entradas extraídas por meio do seguinte comando:

grep -Eh "\+[123]\+SBJR$" x*.delaf.dict

Eu incluí no ramo mestre um arquivo com as correções. As quatro entradas erradas correspondentes precisam ser deletadas. É só usar o padrão acima.

arademaker commented 6 years ago

Esta sua REGEX está com problema. O primeiro + acho que precisa de escape. E mesmo assim nada é retornado.

odanoburu commented 6 years ago

@leoalenc como falei no outro comentário https://github.com/LFG-PTBR/MorphoBr/issues/34#issuecomment-385416242, já corrigi esses erros e removi o que havia de errado! vc pode checar na diff do PR #45 pra ver se está tudo certo!

leoalenc commented 6 years ago

@arademaker quando coloco comandos do Unix aqui, as barras de escape somem. Como evitar isso?

arademaker commented 6 years ago

Editei agora seu comentário acima, clique nos ... e editar para ver como inserei o verbatim.

arademaker commented 6 years ago

Se vamos continuar comentando aqui, este issue então ainda está aberto? Se for o caso, reabrir. Senão, vamos trabalhar nos issues abertos? Eu agora vou focar no artigo.