transparencia-mg / remuneracao

dataset que contém arquivos da consulta de remuneração mensal dos servidores
https://transparencia-mg.github.io/remuneracao/
0 stars 0 forks source link

Caracteres corrompidos (ilegíveis) nas unidades administrativas - mojibake #9

Open fjuniorr opened 3 years ago

fjuniorr commented 3 years ago

Para remover as informações de lotação dos servidores em exercício nas unidades prisionais e socioeducativas nos arquivos históricos precisamos de fazer um cruzamento por texto, tendo em vista que não temos os códigos das unidades administrativas nos arquivos da remuneração.

Os problemas de acentuação podem ser resolvidos (eg. CASA DE SEMILIBERDADE DE MURIAE e CASA DE SEMILIBERDADE DE MURIAÉ), mas lidar com o problema de mojibake (eg. CASA DE SEMILIBERDADE DE MURIA?). Tentei usar a biblioteca ftfy: fixes text for you mas sem sucesso.

Não consegui determinar a extensão desse problemas nos arquivos, mas não parece ser algo desprezível. Uma busca1 por "CENTRO DE INTERNAÃ?O PROVISËRIA PATOS DE MINAS" apontou ocorrência nos meses:

[1] Criei uma base de dados local com SQLite para executar esse tipo de pesquisa em todos os meses