Open anapaulagomes opened 4 years ago
Sobre o pacote de limpeza: simm! Peguei as funções que você tinha feito e botei no ETL, num arquivo cleaners.py. Fiz tb uma função lá. Hoje ainda faço o PR.
Sobre o download, acho que seria muito massa! Fiquei viajando quando vi o do serenata de amor, mas não sei pra onde vai isso aí.. hahaha. Se for um negócio rápido acho que vale a pena fazer, né? Se for dar mais trabalho acho que não é tanto prioridade, pq é bem facinho de baixar etc
Massa, @Jkasnese! Não esquece de fazer um rebase. Eu criei um parsers.py
dentro do ETL.
Para qualquer método que tu adicionar, não esquece de adicionar testes unitários.
Sobre o download dos datasets eu acho melhor esperar mesmo. Imagino que não seria complexo mas temos outras coisas mais importantes no backlog. :sweat_smile:
Talvez seja interessante ter em um pacote métodos para limpeza dos dados. Alguns deles já existem na Maria Quitéria. Além disso, poder fazer o download e carregamento dos dados chamando um método seria ótimo. Ao invés de baixar os arquivos e tê-los na pasta, qualquer pessoa desenvolvedora poderia rodar os notebooks e baixar os datasets em tempo de execução. Exemplo:
Exemplos dessa estratégia: