joaopedromattos / DMC2020

Repositório que contém todo o progresso obitdo pelo time do Data durante a competição Data Mining Cup 2020.
MIT License
2 stars 1 forks source link

EDA: Auto time EDA script #6

Open BrunoGomesCoelho opened 4 years ago

BrunoGomesCoelho commented 4 years ago

O que foi descoberto?

Eu rodei um antigo notebook de auto eda sobre série temporais... ele não é muito útlil, é bem "plota tudo e foda-se", mas talvez seja util como exemplo de plot para quem ainda não trabalhou com séries temporais;

Ie, um stacked area plot dos 10 top brand, com os dados já agregados de 14 em 14 dias:

dmc_time1

Ou seja, o manufacturer 0 corresponde quase sempre a no mínimo 50% do total de compras;

Descreva seus passos/métodos para chegar à essa conclusão:

O notebook envolvido é o bruno/auto_eda/time_eda.ipynb, mas antes precisa rodar o 1.0 para gerar o arquivo csv;

Eu propositalmente não vou colocar na main/ porque espero fazer um EDA mais inteligente nos próximos dias e o código do auto_eda ta bem merda :sweat_smile: mas assim vcs podem no mínimo ver como um código assim funciona

EDIT: Tinha escrito manufacturer, mas é brand

joaopedromattos commented 4 years ago

Nossa, mto foda esse notebook de auto EDA hahahahah Vou usar pra algumas coisas essa parada!

vitor-san commented 4 years ago

Não seria interessante fazer a mesma análise em cima das brands? Apesar de não ser o código ideal (como vc diz), o resultado fica muito bom e dá pra ter uma noção bem rápida do quanto cada parte impacta no todo.

BrunoGomesCoelho commented 4 years ago

O plot aí em cima é das brands! única coisa que to mostrando só a top 10 para não ficar muito poluído (porém, as porcentagens são de todas as brands - um truque importante para ter)

vitor-san commented 4 years ago

É bom lembrar que a brand 0 é, na verdade, o NA (Not Available) das brands. Ou seja, para grande parte dos produtos não sabemos a qual marca eles pertencem.

DMC3