cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

revisão analises mini #76

Open arademaker opened 3 years ago

arademaker commented 3 years ago

Conforme descrito em https://github.com/cpdoc/dhbb-nlp/issues/67#issuecomment-814310839, começamos a revisão do diretório mini. Sentenças serão marcadas como revised = true a medida que forem revisadas.

no diretório mini/validation tenho report das sentenças que não passaram na validação do validador de UD (https://github.com/UniversalDependencies/tools). Na maioria dos casos, problemas com pontuação como os existentes ainda no Bosque.

Podemos escolher vários critérios de quais sentenças vamos analisar primeiro no mini. Podemos olhar para os root suspeitos, para estas sentenças que não estão válidas, para fenômenos mais complicados como non-verbal clauses (https://universaldependencies.org/u/overview/simple-syntax.html#nonverbal-clauses) etc.