splor-mg / notas

Base de conhecimento
https://splor-mg.github.io/notas/main
0 stars 0 forks source link

Padronização do formato dos arquivos csv #13

Open fjuniorr opened 1 year ago

fjuniorr commented 1 year ago

Trazendo pra um issue pra dar visibilidade sobre essa discussão. @labanca perguntou

Chico, aqui vc ta salvando csv seperado por vírgula. É por conta de alguma prática ou padrão? Eu geralmente uso ponto e virgula pq costuma reconhecer automatico so de abrir em alguns programas, tipo excel

mas nao sei se é o mais correto do jeito que faço

A coisa mais próxima de um padrão pra CSV que é a RFC4180 utiliza vírgula como separador e UTF8 como codificação é o "certo" hoje em dia. Tanto o separador quando o encoding também são os utilizados por default nas especificações frictionless.

Mesmo assim eu acho que pra arquivos que são voltados para usuários finais entendido como aqueles que o principal, senão o único, meio de acessar os dados é excel o melhor é "csv excel" com separador ; e encoding UTF8 com BOM.

Mas eu estou considerando que os data packages que estiverem documentando nossas bases primárias, como o ppag-planejament, ainda não são para os usuários finais, e aí seria melhor usar algo mais próximo do padrão.

Esse ainda é um ponto pra amadurecimento e discussão.

fjuniorr commented 1 year ago

Mas eu estou considerando que os data packages que estiverem documentando nossas bases primárias, como o ppag-planejament, ainda não são para os usuários finais, e aí seria melhor usar algo mais próximo do padrão.

Essa conversa aqui no contexto do Painel OBZ mostra como essa frase não sobreviveu ao primeiro projeto maior da AID:

Pedro: tem como fazer bi dentro do power bi ? eu queria uma base consolidada com as colunas: UO, ação, Grupo, agrupamento, classificação de cenario, NOVO?, total solicitado, PARECER DCMEFO, VALOR DO PARECER. todas as uos, numa base so.

Francisco: A gente tem a base consolidada como um excel que alimenta o painel

Ainda não estou convencido que faz sentido mudar, até mesmo porque o módulo csv do python não tem suporte pra exportar arquivos csv com decimal de vírgula e a gente teria que armazenar metadados a mais no nossos data packages (csv dialect e decimalChar no table schema).

Agora, se a gente de fato não conseguir fazer a leitura no PowerBI de csv formatados de acordo com RFC4180 aí a coisa muda de figura.

fjuniorr commented 1 year ago

Agora, se a gente de fato não conseguir fazer a leitura no PowerBI de csv formatados de acordo com RFC4180 aí a coisa muda de figura.

~Pelo visto o default do Qlikview (https://github.com/splor-mg/sisor-dados/issues/4) também é usar vírgula.~

O problema separador de milhar, não de vírgula!

fjuniorr commented 1 year ago

A gente já conseguiu determinar que tanto o qlikview quanto o PowerBI possuem sim capacidade de ler csvs no padrão RFC4180. Nas duas ferramentas a configuração pode ser feita a nível de documento ou por cada arquivo importado.

No entanto mais uma vez uma diretoria teve interesse na base de dados que a gente processou em excel:

image