Titanic - Machine Learning from Disaster
Este projeto foi desenvolvido como parte de um bootcamp de Ciência de Dados e tem como objetivo prever a sobrevivência dos passageiros do Titanic, aplicando conceitos fundamentais de aprendizado de máquina. Utilizando dados históricos, buscaremos entender quais fatores mais influenciaram as chances de sobrevivência e como construir um modelo preditivo eficiente.
Justificativa
O naufrágio do Titanic é um dos eventos mais icônicos da história e, com o avanço da Ciência de Dados, podemos usar os dados coletados para analisar os padrões de sobrevivência. Este projeto proporciona uma oportunidade prática para aplicar técnicas de aprendizado de máquina em um cenário realista. Além disso, permite o desenvolvimento de habilidades essenciais para um cientista de dados, como análise exploratória de dados, engenharia de atributos, modelagem e avaliação de modelos.
Através desta análise, buscamos não apenas prever a sobrevivência dos passageiros, mas também aprender a lidar com desafios de limpeza e preparação de dados, entender a importância de cada variável e como aplicar algoritmos de machine learning de forma eficaz.
Questões Abordadas
No decorrer do projeto, abordaremos as seguintes questões:
- Quais variáveis influenciam diretamente a probabilidade de sobrevivência?
- Como podemos construir um modelo preditivo robusto para prever a sobrevivência dos passageiros?
- A engenharia de atributos (feature engineering) pode melhorar o desempenho do modelo?
- Existem padrões demográficos ou socioeconômicos que ajudaram a determinar as chances de sobrevivência?
Metodologia
O projeto segue a metodologia CRISP-DM, abordando as etapas fundamentais de um processo de Ciência de Dados:
1. Entendimento do Problema
- Objetivo: Prever a sobrevivência de passageiros do Titanic com base em suas características individuais.
2. Entendimento dos Dados
- Análise Exploratória de Dados (EDA): Investigação das variáveis disponíveis, como idade, sexo, classe de passagem, número de familiares a bordo e tarifa paga.
- Visualização de distribuições e correlações entre as variáveis para extrair insights preliminares.
3. Preparação dos Dados
- Limpeza de Dados: Tratamento de dados faltantes, como a idade ou o porto de embarque.
- Engenharia de Atributos: Criação de novas variáveis, como tamanho da família ou indicadores de status socioeconômico, para melhorar a precisão do modelo.
4. Modelagem
- Construção de Modelos de Machine Learning: Testaremos algoritmos como Regressão Logística, Árvore de Decisão, e Random Forest para a tarefa de classificação binária (sobreviveu ou não).
- Avaliação de Modelos: Utilização de métricas como acurácia, precisão, recall, e área sob a curva ROC (AUC) para comparar os modelos e selecionar o mais eficaz.
5. Avaliação
- Avaliar o desempenho do modelo em dados de teste (não vistos) e ajustar hiperparâmetros para melhorar a generalização.
6. Resultados e Conclusão
- Entrega Final: Previsão de sobrevivência com base no melhor modelo selecionado, juntamente com uma análise detalhada das variáveis mais importantes para a previsão.
Resultados Esperados
Ao final deste projeto, esperamos:
- Identificar os principais fatores que influenciaram a sobrevivência dos passageiros do Titanic, como classe social, idade e gênero.
- Construir um modelo preditivo eficiente capaz de prever com alta precisão a probabilidade de sobrevivência.
- Desenvolver uma maior compreensão das etapas de um fluxo de trabalho de ciência de dados, desde a análise exploratória até a modelagem e avaliação de algoritmos.
Este projeto, além de fornecer uma solução preditiva, servirá como uma prática essencial para reforçar os conceitos e habilidades necessárias em projetos de Ciência de Dados no mundo real.