Closed fcbr closed 6 years ago
Outras: puirlhes
, puirlhe
, protrairvos
, etc.
parece erro do DELAF:
bruno@bruno-inspiron-N5010:~$ grep "puirlhes" delaf2015v04.dic
espuirlhes,espuir.V+PRO:U1s
espuirlhes,espuir.V+PRO:U3s
espuirlhes,espuir.V+PRO:W
espuirlhes,espuir.V+PRO:W31
espuirlhes,espuir.V+PRO:W3s
puirlhes,puir.V+PRO:U1s
puirlhes,puir.V+PRO:U3s
puirlhes,puir.V+PRO:W
puirlhes,puir.V+PRO:W31
puirlhes,puir.V+PRO:W3s
Outra coisa curiosa e' o None
no meio das features: protrairnos protrair+V.None+INF+3+SG
Isso e' um bug tambem, o este valor e' esperado?
EDIT:
Temos mais de 3000 entradas com None
e uma olhada rapida, parecem ser todas no mesmo estilo de erro.
$ cd ~/MorphoBr
$ find . -name \*.dict -exec grep None {} \;|wc -l
3070
None já deve ser erro da conversão usando Python!
@leoalenc vc acha que regex resolve o primeiro problema?
o segundo vai precisar atualização na conversão, imagino..
@odanoburu @fcbr de fato, é um erro do programa de conversão causado por um erro de formatação do dicionário de São Carlos. Nesses casos, era esperado um - separando pronome do verbo. Como esse sinal gráfico foi omitido, o meu programa de conversão não pôde fazer o mapeamento do pronome sobre as suas propiedades. A solução para isso é procurar pela terminação desses verbos, identificando os pronomes e inserindo -. Em seguida, aplicar o programa de conversão novamente sobre as formas corrigidas.
@odanoburu @fcbr para identificar os pronomes colados no final dos verbos, basta pegar um verbo formatado corretamente e extrair todos os pronomes separados por-. Então construir expressão regular com esses pronomes e realizar a substituição por meio de sed, usando a backreference \1. Vou tentar fazer isso agora.
@leoalenc ah, faz sentido! não reparei que em todos os casos em que faltavam os hífens também tinha o None!
isso é algo a se falar no artigo -- a gente escreve o código de conversão, tenta debugar, mas às vezes é o input que está errado..
Found some strange entries in clitics: