okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

marcar nomes próprios #40

Open ppKrauss opened 7 years ago

ppKrauss commented 7 years ago

Usar givenName como palavra de referência para inicio de nome completo. Requer case sensitive e fica apenas de amostra, podendo ser removido em seguida: o seguindo passo é verificar se além do primeiro nome aparecem outras palavras iniciadas por maiúsculas em seguida. Outros contextos como nome de empresa devem bloquear essa marcação.

Ideal é aplicar apenas nas posições de texto onde são esperadas citações de nomes completos, tais como blocos de assinaturas (leis, atas, contratos, etc. apresentam assinaturas no back) ou de apresentação das partes (inicio de contrato, etc.).

PROBLEMA: requer um "dicionário de nomes mais frequêntes" confiável para gerar produto razoável. A base de dados de nomes próprios do IBGE é a mais importante neste sentido, mas não está disponível, falta requisitar.

ppKrauss commented 7 years ago

Criando mais um projeto derivado para uso indireto aqui (o queriDO alimenta e vice-versa), https://github.com/datasets-br/public-person usa nome completo e CPF.

ppKrauss commented 7 years ago

A tabela nacional do IBGE (fonte das estatísticas de http://censo2010.ibge.gov.br/nomes) foi solicitada ao eSIC nacional, via protocolo 03950.001069/2017-66.

Ver tb esic@cgu.gov.br ou e http://www.acessoainformacao.gov.br/