Open BrunoGomesCoelho opened 4 years ago
Nossa, mto foda esse notebook de auto EDA hahahahah Vou usar pra algumas coisas essa parada!
Não seria interessante fazer a mesma análise em cima das brands? Apesar de não ser o código ideal (como vc diz), o resultado fica muito bom e dá pra ter uma noção bem rápida do quanto cada parte impacta no todo.
O plot aí em cima é das brands! única coisa que to mostrando só a top 10 para não ficar muito poluído (porém, as porcentagens são de todas as brands - um truque importante para ter)
É bom lembrar que a brand 0 é, na verdade, o NA (Not Available) das brands. Ou seja, para grande parte dos produtos não sabemos a qual marca eles pertencem.
O que foi descoberto?
Eu rodei um antigo notebook de auto eda sobre série temporais... ele não é muito útlil, é bem "plota tudo e foda-se", mas talvez seja util como exemplo de plot para quem ainda não trabalhou com séries temporais;
Ie, um stacked area plot dos 10 top brand, com os dados já agregados de 14 em 14 dias:
Ou seja, o manufacturer 0 corresponde quase sempre a no mínimo 50% do total de compras;
Descreva seus passos/métodos para chegar à essa conclusão:
O notebook envolvido é o bruno/auto_eda/time_eda.ipynb, mas antes precisa rodar o 1.0 para gerar o arquivo csv;
Eu propositalmente não vou colocar na
main/
porque espero fazer um EDA mais inteligente nos próximos dias e o código do auto_eda ta bem merda :sweat_smile: mas assim vcs podem no mínimo ver como um código assim funcionaEDIT: Tinha escrito manufacturer, mas é brand