atlantico-academy / student-academic-performance

MIT License
0 stars 2 forks source link

Exploração de dados #4

Closed omadson closed 1 year ago

omadson commented 2 years ago

A equipe deve criar um notebook de análise exploratória notebooks/01-exploratory_data_analysis.ipynb, contendo as seguintes seções de texto:

omadson commented 1 year ago

Vou colocar aqui algumas perguntas que podem gerar gráficos na análise exploratória:

Análise univariada (gráficos de distribuição)

Criem gráficos de distribuição para as variáveis, isso ajudará a identificar o comportamento médio dos estudantes, bem como a variabilidade presente no conjunto de dados:

Além de gráficos de distribuição, podem utilizar gráficos de caixa (boxplot) e suas variações (como o violinplot) para visualizar as distribuições de variáveis quantitativas.

Análise bivariada (comparação entre duas variáveis - quantitativas ou qualitativas)

A comparação entre duas variáveis pode ser realizada de diversas formas, sendo a mais comum o uso de gráficos de barras agrupados. Desse modo, variáveis como gender e NationallTy podem ser combinadas para criar um gráfico de barras agrupadas com os grupos sendo as nacionalidades e os subgrupos sendo o sexo, desse modo identificaremos a distribuição do gênero em relação a nacionalidade. Isso pode ser feito para outras combinações também, como o curso e o sexo (Quando o número de categorias passar de 5, podem agrupar os menos frequentes em uma categoria outros).

Outra maneira interessante re relacionar duas variáveis é criar gráficos de dispersão (scatterplot), eles são ideais para relacionar duas variáveis quantitativas (sejam discretas ou contínuas). Por exemplo, a quantidade de vezes que o aluno levavntou a mão (raisedhands) pode ser relacionada com a quantidade de vezes que o aluno pesquisa o conteúdo do curso (visiTedResources). Isso vale para as outras variáveis quantitativas também. O pairplot do seaborn é ótimo pra isso.

Outro gráfico interessante para visualizar relações entre duas variáveis é o gráfico de calor (heatmap), que apresenta a correlação entre duas variáveis através de uma tabela em que a cor das células está relacionada a esse valor. Verifiquem a documentação do seaborn para isso.

Análise multivariada

Por fim, vocês podem criar visualizações que envolvem mais de duas variáveis. Diversos gráficos podem ser utilizados para isso, como scatterplots (com cores diferentes para cada categoria), gráficos de barras agrupados também pode ser utilizados. Podem dar uma olhada na galeria do seaborn lá tem uma quantidade grande de exemplos que podem ser copiados.

omadson commented 1 year ago

Olhem o comentário acima.