DadosAbertosDeFeira / analises

Análises dos dados relacionados a Feira de Santana 📊
https://dadosabertosdefeira.github.io/analises/
MIT License
37 stars 14 forks source link

Estrutura das análises #9

Closed guilhermelowa closed 3 years ago

guilhermelowa commented 4 years ago

Alguns pontos importantes:

Pensei em 5 pontos principais sobre a formatação das análises e do repositório. Resolvi criar uma Issue só porque mexendo um item você acaba mexendo os outros, ao menos a princípio.

1- A cada resultado, ter associado a ele de onde vieram os dados e a data de acesso. Pra referenciar, mesmo. Além disso, no começo do notebook, referenciar os datasets utilizados - pra quem for depois olhar a análise saber qual dataset e de quando era. Pode ser útil rodar o mesmo notebook num dataset mais atualizado ou atualizar o notebook anterior com dados mais recentes. O que vocês acham?

2- O que eu pensei de estrutura foi o seguinte: repo/analises: -> contratos (Pasta do projeto - podia ser: COVID, câmara, licitações) ->> exploração_inicial.ipynb ou talvez .html (descrição do dataset) ->> análise_a.ipynb (notebook com análise A) ->> análise_b.ipynb (notebook com análise B) -> COVID (outro projeto) ->> repete...

3- E aí vem a questão: cada análise um notebook? Ou só adicionar uma nova célula com uma nova análise e cabou? A vantagem da primeira abordagem é que fica mais organizado. A vantagem da segunda é que os resultados ficam centralizados. Se tiver um HTML com os resultados, então a pessoa ao submeter um notebook pode tb incrementar o HTML com os resultados dela, né? Mas até lá, faz como? Primeiro eu tinha pensado em criar células aninhadas pra cada análise, assim você podia colapsar ou expandir cada análise, exploração inicial, parte do código que não é resultado etc. Tipo aqui.

4- A questão da estrutura que pensei tá relacionado ao que falei acima: centralizar os resultados pra ficar fácil pra quem vai depois utilizar eles em um texto, processo, inquérito, etc. Aí tinha pensado em fazer as células aninhadas, como falei acima. A primeira parte, de preparação e mais voltada pra quem tb é técnico. A segunda, os resultados. E aí quem só quer ver os resultados pode minimizar toda a parte de preparação. Não sei se faz muito sentido, também... O ideal era exportar os resultados pra um outro lugar, como o HTML, onde só tivesse os resultados com explicações e referências. Aí nesse caso este item 4 nem seria uma questão, eu acho.

5- Os notebooks do serenata de amor são data-autor-nome.ipynb. Acho que data e autor não fornecem muita informação no nosso caso. Pelo que eu entendi esse repositório deles é bastante educacional, então funciona pra eles. Prefiro: .ipynb. Assim fica fácil de achar onde tá o que. Tanto pra editar quanto pra ver os resultados. Isso se for o modelo apresentado em 2. Se todas as análises ficarem juntas num notebook só, então podia ser só analises-.ipynb.

guilhermelowa commented 4 years ago

Na verdade, sobre o item 5 acho melhor TEMA_NOME-da-analise_DATA-do-dataset.ipynb Assim você sabe, sem abrir, do que se trata, qual análise tá sendo feita e de quando é o dataset.

guilhermelowa commented 4 years ago

Um outro ponto sobre os nomes (5) é que acho que não deve ter acentos e outros caracteres estranhos (ç talvez). Só ASCII, acho? Não sei.

Se não, nos pulls fica aparecendo caracteres esquisitos: Screenshot from 2020-06-13 16-08-24

guilhermelowa commented 3 years ago

Quase tudo mencionado já foi resolvido / decidido. No entanto, surgiu uma questão:

O número de notebooks e scripts tá crescendo e até então os dados utilizados neles estão na mesma pasta. Eu acho um pouco bagunçado.

Minha sugestão:

criar uma pasta data/ dentro de analysis. Dentro de data/, ter subpastas pra cada origem do dado. Por ex: data/images/, data/tse, data/city_hall, data/city_council.

Esse mesmo problema pode acontecer com a pasta /data, que no momento tem as especificações das despesas. Mover essas especificações pra cada subpasta acima é uma opção. Por exemplo: analysis/data/tse/dictionary/, ou algo semelhante.

Acho que ter duas pastas "data", mesmo em níveis diferentes, fica um pouco confuso. Agora mesmo pra explicar eu tive que pensar um pouco em como distinguir.

anapaulagomes commented 3 years ago

Eu não consegui entender, na real, @guilhermelowa. Os dados usados nas análises não tem que ser commitados, então cada pessoa pode organizar como quiser e documentar. Ainda não temos um volume muito grande de análises. Quando acontecer, podemos voltar pra essa discussão.