joaopedromattos / DMC2020

Repositório que contém todo o progresso obitdo pelo time do Data durante a competição Data Mining Cup 2020.
MIT License
2 stars 1 forks source link

EDA: Métrica de Relevância dos Itens #10

Open joaopedromattos opened 4 years ago

joaopedromattos commented 4 years ago

O que foi descoberto?

No grupo do Telegram eu e @tobiasveiga discutirmos sobre uma possível métrica de relevância dos itens. Chegamos, na ocasião, à conclusão de que numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana poderia ser um bom ponto de partida. A partir dessa discussão eu tentei elaborar uma métrica um pouco melhor, baseada também na frequência de venda dos itens durante o período que o dataset cobre.

Descreva seus passos/métodos para chegar à essa conclusão:

A nova métrica que foi estabelecida por mim trata-se da adição de um termo novo à antiga, resultando em : numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana * numero_de_semanas_em_que_o_item_eh_vendido / 13

A ideia é tentar dar menos relevância aos itens que foram muito pouco vendidos, mas que devido ao seu preço, teriam uma relevância desproporcional.

No gráfico a seguir, realizamos uma comparação entre a representatividade dos itens segundo a primeira métrica (linha vermelha) e a métrica que leva em conta a frequência de venda (linha azul).

Screenshot_20200518_180408

Nesse gráfico, vemos que os 2000 itens que representam mais de 80% da relevância segundo a nova métrica. Isso é interessante, porque realmente demonstra o potencial de impacto de poucos itens na função de avaliação.

No gráfico a seguir (relevância x itemID), podemos ver como poucos itens se mantém na mesma posição quando saímos da métrica antiga (gráfico superior) para a métrica proposta nesta issue (gráfico inferior). Isso acontece pois as vendas da maioria dos itens tendem a ser esparsas. A linha vermelha corresponde à média das relevâncias dos itens em suas respectivas médias. Outro ponto a ser observado é o fato de que a maioria dos itens tende a "assentar" quando usamos a métrica nova, o que demonstra ainda mais a capacidade de diferenciação entre os itens com vendas esparsas e os itens com vendas mais constantes.

Screenshot_20200518_182256