ipeaGIT / enderecobr

Pacote de R para padronizar endereços brasileiros
https://ipeagit.github.io/enderecobr/
Other
0 stars 0 forks source link

detectar valores non-sense (especialmente em logradouros) #5

Closed lucasmation closed 7 months ago

lucasmation commented 8 months ago

ALém de uma string vazia, "", vi casos como:

Acho que tem que transformar em NA.... (e tb os vazios). @dhersz, o que acha?

dhersz commented 8 months ago

Nunca tinha notado esses casos. Em que base você tá encontrando esses valores? Queria dar uma olhada em como os outros campos são preenchidos quando isso acontece.

Transformar em NA pode ser uma boa.

Na verdade, hoje o pacote transforma NAs em strings vazias (""). Fiz isso no começo pensando que valores NA poderiam resultar em problemas quando usasse os endereços pro geocode, mas na verdade nunca testei esse comportamento (se gera problemas ou não). Vou testar isso. "Conceitualmente", concordo que transformar valores inválidos em NA faz mais sentido.

lucasmation commented 8 months ago

Na base do CPF, na do CadUnico, na TSEE. Acontece muito tb com nomes de pessoas especialmente nome da mae e do pai nos cadastros.

Acho que, conceitualmente, a ausência de informação tem que ser classificada como tal, isso é, como NA. A função de geocode deveria saber lidar com isso e nem rodar, ou rodar sem aquela variável.

Dito isso, como tenho salvo/lido usando o fread/fwrite, e ele mantem os vazions como "", as vezes eu esqueço de fazer esta limpeza.

dhersz commented 8 months ago

Rascunho em https://github.com/ipeaGIT/enderecopadrao/commit/2a3aae0fab47c0bb2e7377f2f336ecdccba5fb36. Por enquanto usando "" em vez de NA porque preciso fazer uns testes com NA. Mas nos próximos dias já vou mudar isso.

dhersz commented 7 months ago

Conversão de vazios/non-sense em NA feita em https://github.com/ipeaGIT/enderecopadrao/commit/2f54e0a18edf6c78ab26e7abcd1101dbaad2c6e2.