O DHBB tem casos como “PSDB-PMDB” para nomes de coligação. O parser aqui mantém um token mas deveriam ser dois. Ou pior “São Paulo-Rio de Janeiro” e “São Paulo - Rio de Janeiro”. O primeiro caso é mais complicado e faz o parser produzir um token “Paulo-Rio”.
No caso do DHBB, podemos contribuir com a equipe do CPDOC sugerindo regras de editoração que evitem problemas. Por outro lado , nós humanos conseguimos resolver. Sempre o desafio de entender porque conseguimos ser mais robustos e como ensinar sistemas a serem igualmente robustos, então no corpus deveríamos aceitar os textos como foram inicialmente escritos? Por outro lado, qualquer jornal ou revista tem editoração com o exato propósito de garantir consistência e facilitar leitura.
O DHBB tem casos como “PSDB-PMDB” para nomes de coligação. O parser aqui mantém um token mas deveriam ser dois. Ou pior “São Paulo-Rio de Janeiro” e “São Paulo - Rio de Janeiro”. O primeiro caso é mais complicado e faz o parser produzir um token “Paulo-Rio”.
No caso do DHBB, podemos contribuir com a equipe do CPDOC sugerindo regras de editoração que evitem problemas. Por outro lado , nós humanos conseguimos resolver. Sempre o desafio de entender porque conseguimos ser mais robustos e como ensinar sistemas a serem igualmente robustos, então no corpus deveríamos aceitar os textos como foram inicialmente escritos? Por outro lado, qualquer jornal ou revista tem editoração com o exato propósito de garantir consistência e facilitar leitura.