Erros de escrita no corpus

ud-portugues / Brazilian-Team

Brazilian researchers initiative on UD

6 stars 0 forks source link

Erros de escrita no corpus #6

Open claudiafreitas opened 3 years ago

claudiafreitas commented 3 years ago

Como vcs estão fazendo quando o corpus está errado? Abaixo, onde está "e" deveria ser "de".

a expectativa é que a produção de gás natural neste campo chegue a 15 milhões e metros cúbicos/dia (www.ibp.org.br).

Dep? E o lema e pos? Atribuídos como se a palavra estivesse correta? ("de" e "adp", respectivamente)

arademaker commented 3 years ago

Para UD, seria corrigir o lemma e usar POS e DEPREL considerando o de no seu caso. E ainda pode-se usar o Misc e Features para indicar o erro: https://universaldependencies.org/u/feat/Typo.html.

Na prática, prefiro corrigir o texto...

adripag commented 3 years ago

No corpus de textos clínicos, a máquina separou "nao" como "em" "a" "o". Não temos permissão para corrigir o texto. Então, colocamos goeswith e lema e POS considerando "não" para cada token que ficou separado.