UniversalDependencies / UD_Portuguese-DHBB

Other
2 stars 0 forks source link

tokenization #2

Open arademaker opened 3 years ago

arademaker commented 3 years ago

O DHBB tem casos como “PSDB-PMDB” para nomes de coligação. O parser aqui mantém um token mas deveriam ser dois. Ou pior “São Paulo-Rio de Janeiro” e “São Paulo - Rio de Janeiro”. O primeiro caso é mais complicado e faz o parser produzir um token “Paulo-Rio”.

No caso do DHBB, podemos contribuir com a equipe do CPDOC sugerindo regras de editoração que evitem problemas. Por outro lado , nós humanos conseguimos resolver. Sempre o desafio de entender porque conseguimos ser mais robustos e como ensinar sistemas a serem igualmente robustos, então no corpus deveríamos aceitar os textos como foram inicialmente escritos? Por outro lado, qualquer jornal ou revista tem editoração com o exato propósito de garantir consistência e facilitar leitura.

arademaker commented 3 years ago
  1. Se PFL-PE ou CDE-DF forem tokens, teríamos tantos outros PFL-XX (RJ, SP etc). Compostos como PSDB-PMDB? Segmentamos compostos? Parece que sim.
  2. Ferrovia Norte-Sul
  3. PIS-PASEP
  4. ...a estrada Belo Horizonte-Uberaba....
  5. Em Belo Horizonte, Valadares falou com o presidente da Belgo-Mineira...