LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

Error in clitics #42

Closed fcbr closed 6 years ago

fcbr commented 6 years ago

Found some strange entries in clitics:

$ grep protrairnos ../verbs/clitics/*
../verbs/clitics/uniq.adb.delaf.dict:protrairnos    protrair+V.None+SBJF+1+SG
../verbs/clitics/uniq.adb.delaf.dict:protrairnos    protrair+V.None+SBJF+3+SG
../verbs/clitics/uniq.adb.delaf.dict:protrairnos    protrair+V.None+INF
../verbs/clitics/uniq.adb.delaf.dict:protrairnos    protrair+V.None+INF+3+1
../verbs/clitics/uniq.adb.delaf.dict:protrairnos    protrair+V.None+INF+3+SG
fcbr commented 6 years ago

Outras: puirlhes, puirlhe, protrairvos, etc.

odanoburu commented 6 years ago

parece erro do DELAF:

bruno@bruno-inspiron-N5010:~$ grep "puirlhes" delaf2015v04.dic 
espuirlhes,espuir.V+PRO:U1s
espuirlhes,espuir.V+PRO:U3s
espuirlhes,espuir.V+PRO:W
espuirlhes,espuir.V+PRO:W31
espuirlhes,espuir.V+PRO:W3s
puirlhes,puir.V+PRO:U1s
puirlhes,puir.V+PRO:U3s
puirlhes,puir.V+PRO:W
puirlhes,puir.V+PRO:W31
puirlhes,puir.V+PRO:W3s
fcbr commented 6 years ago

Outra coisa curiosa e' o None no meio das features: protrairnos protrair+V.None+INF+3+SG

Isso e' um bug tambem, o este valor e' esperado?

EDIT:

Temos mais de 3000 entradas com None e uma olhada rapida, parecem ser todas no mesmo estilo de erro.

$ cd ~/MorphoBr
$ find . -name \*.dict -exec grep None {} \;|wc -l
3070
odanoburu commented 6 years ago

None já deve ser erro da conversão usando Python!

@leoalenc vc acha que regex resolve o primeiro problema?

o segundo vai precisar atualização na conversão, imagino..

leoalenc commented 6 years ago

@odanoburu @fcbr de fato, é um erro do programa de conversão causado por um erro de formatação do dicionário de São Carlos. Nesses casos, era esperado um - separando pronome do verbo. Como esse sinal gráfico foi omitido, o meu programa de conversão não pôde fazer o mapeamento do pronome sobre as suas propiedades. A solução para isso é procurar pela terminação desses verbos, identificando os pronomes e inserindo -. Em seguida, aplicar o programa de conversão novamente sobre as formas corrigidas.

leoalenc commented 6 years ago

@odanoburu @fcbr para identificar os pronomes colados no final dos verbos, basta pegar um verbo formatado corretamente e extrair todos os pronomes separados por-. Então construir expressão regular com esses pronomes e realizar a substituição por meio de sed, usando a backreference \1. Vou tentar fazer isso agora.

odanoburu commented 6 years ago

@leoalenc ah, faz sentido! não reparei que em todos os casos em que faltavam os hífens também tinha o None!

isso é algo a se falar no artigo -- a gente escreve o código de conversão, tenta debugar, mas às vezes é o input que está errado..