AddressForAll / WS

Core infrastructure for AdressForAll Web Services
1 stars 0 forks source link

Problemas com caracteres de SP-Itu #5

Closed ppKrauss closed 1 year ago

ppKrauss commented 4 years ago

Recebemos um "shape file bixado", e pretendiamos contornar o problema corrigindo por algoritmo já que não parecem ser tantos casos... Mas para contabilizar o numero de casos é preciso lista-los: ver https://stackoverflow.com/q/62416541/287948

ppKrauss commented 4 years ago

Na base ingest1,

create view vw_logradouro_bichado as SELECT row_number() OVER () as id, * FROM (
  select distinct  logradouro,
     regexp_replace(logradouro, '[^\u0020-\u007E]', '_') rev
  from logradouro 
) t
where rev ~ '_' order by logradouro;
copy (select * from vw_logradouro_bichado) to '/tmp/logBichado.csv' CSV header;
-- COPY 86

O resultado foi copiado e revisado nesta planilha GDocs.

Para garantir o join pode-se fazer uso dos mesmos números de linha,

CREATE TABLE logradouro_sinonimos (
  id int NOT NULL primary key,
  logradouro_bichado text NOT NULL,
  logradouro_marcado text NOT NULL,
  logradouro_revisado text NOT NULL,
  sinonimo_de text,
  UNIQUE(logradouro_bichado)
);
COPY logradouro_sinonimos
FROM '/tmp/pg_io/SP-Itu-normalizacaoManualLogradouros.csv' CSV HEADER;
-- test:
SELECT a.*, b.logradouro as log_original
FROM logradouro_sinonimos  a  INNER JOIN vw_logradouro_bichado b  ON a.id = b.id;
IgorEliezer commented 4 years ago

A prefeitura de Itu nos enviou um novo shapefile dos eixos de vias.

ppKrauss commented 4 years ago

A prefeitura de Itu nos enviou um novo shapefile dos eixos de vias.

Quando surge uma versão nova precisamos decidir se descartar a anterior, ou se registrar como uma nova versão. O critério é o seguinte: se nenhum trabalho relevante foi realizado com os dados, podemos "descartar" (não sem antes garantir um backup!). Quanto a "ter realizado trabalho relevante" são os seguintes casos típicos:

ppKrauss commented 4 years ago

Oops, issue inválida mas Peter corrige...

O local correto dessa issue é no projeto digital-preservartion-BR.

0e1 commented 1 year ago

Essa issue antiga perdeu o objeto, me parece. Se existir motivo para não fechá-la, reabri-la.