Open lucasmation opened 4 months ago
Legal. Ainda não tinha visto uma base com o logradouro e o tipo separados, mas já faço alguma dessas correções na padronizar_logradouros()
. Na RAIS, por exemplo, é cheio de logradouro "RUA RUA ALMIRANTE TAMANDARÉ....", ou "RUA AVENIDA JK", "RUA RODOVIA BR-040", "RODOVIA RODOVIA BR-040", e por aí vai. É um misto dos casos 2 e 3, que você comentou.
Sobre o caso 3, a grande maioria dos casos que eu vejo envolve "RUA" e "RODOVIA". Por exemplo, "RUA AVENIDA FOO", "RODOVIA AVENIDA BAR", "RUA TRAVESSA DO OUVIDOR", "RODOVIA ESTRADA FOOBAR", etc. Esse poderia ser um primeiro recorte.
Mation, onde você achou a lista de possibilidades de tipos de logradouro? Dei uma procurada aqui e não to achando.
Acho que foi no cadasrtodo CPF. E há uns anos atrás no CNEFE. Num mundo ideal teríamos uma tabela de compatibilização entre os tipos de logradouro das principais bases (CPF, CadUnico, TSEE, CNEFE, etc...)
Em qua., 15 de mai. de 2024 às 11:09, Daniel Herszenhut < @.***> escreveu:
Mation, onde você achou a lista de possibilidades de tipos de logradouro? Dei uma procurada aqui e não to achando.
— Reply to this email directly, view it on GitHub https://github.com/ipeaGIT/enderecopadrao/issues/4#issuecomment-2112656696, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAK4HCHOU4RHQJVAXQXKVBDZCNUCVAVCNFSM6AAAAABE5NQAI2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDCMJSGY2TMNRZGY . You are receiving this because you authored the thread.Message ID: @.***>
encontrei esse link aqui que lista vários outros: https://www.ruacep.com.br/tipos-de-logradouros/
quase todos esses aparecem na base do cadunico, inclusive os menos ortodoxos (zigue-zague, acampamento, avenida contorno, etc). vale ter em mente
no cadastro do CPF "logradouro" e "tipoLogradouro" sao em variáveis separadas. Acho que é boa prática ter esta separação. O CNEFE tb separa, etc. Listo as possibilidades abaixo (item 1). No padrao Receita (so olhei na base do CPF, seria bom olhar na base do CNPJ tb, to supondo que seja o mesmo padrão). Seria bom fazer uma tabela comparando com os tipos de logradouro de outras bases (RAIS, CadUnico, TSEE), para ter uma nocao. Mas seguir o padrao da receita pode ser o ideial.
Além de separar, existem alguns erros de preenchimento entre
tipoLogradouro
elogradouro
que podemos corrigir:tipoLogradouro =="RUA" e logradouro == "RUA CARLOS VIANA"
, este caso corresponde a 800k casos (de 24m de combinaçoes).tipoLogradouro =="RUA"
maslogradouro == "AVENIDA CARLOS VIANA"
.Incluo abaixo codigos para resolver 1 e 2 num fluxo de processamento de dados normal. Precisaria pensar em como transformar isso em funçoes adequadas.
Sobre 3, começam a ter casos demais, precisamos pensar quando para de tentar resolver os problemas.
1) Tipos de Logradouro
2) Corrigindo
tipoLogradouro
e/ou removendo tipo do nome do logradouroImpacto destas correcoes
Combinações únicas de tipoLogradouro-logradouro