splor-mg / dados-sigplan-planejamento

Conjunto de dados do PPAG Planejamento
0 stars 0 forks source link

Etapa de validação dos arquivos txt primários #3

Closed fjuniorr closed 1 year ago

fjuniorr commented 1 year ago

Se houver modificações nos arquivos primários a validação dos mesmos deve falhar, a menos que manualmente o usuário faça a substituição dos table schemas em schemas/raw/.

Isso significa que os targets

infer: $(TABLESCHEMA_RAW) ingest ## Infer table schema for files in data/raw/ and store under schemas/raw/

$(TABLESCHEMA_RAW): schemas/raw/%.yaml: data/raw/%.txt
    frictionless describe --dialect '{"delimiter": "|"}'  --format csv --type schema --yaml $< > $@

são problemáticos pois se os novos dados tiverem alterações de schema que não são desejadas, os schemas em schemas/raw/ serão atualizados.

Talvez seja mais simples implementar um script scripts/infer.py. O ponto negativo é que ele sera executado para todos os arquivos.

fjuniorr commented 1 year ago

Se frictionless validate não conseguir reconhecer o arquivo que está sendo validado, mesmo com um table schema especifico, não vai haver erro de validação.

Isso foi resolvido no commit 1d0d43c