Esta etapa é necessária para efetuar a preparação dos conjuntos de dados que serão utilizados na etapa de modelagem. É uma das etapas mais importantes, pois ela afeta diretamente a possibilidade de bons resultados na etapa de modelagem.
Vocês deverão efetuar as tarefas seguintes (se acharem necessárias):
[x] Selecionar os dados: determinar quais conjuntos de dados serão utilizados e documentar os motivos de inclusão/exclusão.
[x] Limpar dados: Corrigir, imputar ou remover valores erroneamente inseridos nos conjuntos de dados.
[x] Construir dados: derivar novos atributos que serão úteis. Por exemplo, derivar o IMC de alguém a partir da altura e peso.
[x] Integrar dados: criar novos conjuntos de dados combinando dados de várias fontes.
[x] Formatar dados: Formatar novamente os dados conforme as necessidades dos modelos.
Criem um notebook com o nome 02-data-preparation.ipynb (dentro da pasta de notebooks/) e documentem o máximo necessário para que pessoas que não estão participando do processo todo também consigam entender.
Esta etapa é necessária para efetuar a preparação dos conjuntos de dados que serão utilizados na etapa de modelagem. É uma das etapas mais importantes, pois ela afeta diretamente a possibilidade de bons resultados na etapa de modelagem.
Vocês deverão efetuar as tarefas seguintes (se acharem necessárias):
[x] Formatar dados: Formatar novamente os dados conforme as necessidades dos modelos.
Criem um notebook com o nome
02-data-preparation.ipynb
(dentro da pasta denotebooks/
) e documentem o máximo necessário para que pessoas que não estão participando do processo todo também consigam entender.