No grupo do Telegram eu e @tobiasveiga discutirmos sobre uma possível métrica de relevância dos itens. Chegamos, na ocasião, à conclusão de que numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana poderia ser um bom ponto de partida. A partir dessa discussão eu tentei elaborar uma métrica um pouco melhor, baseada também na frequência de venda dos itens durante o período que o dataset cobre.
Descreva seus passos/métodos para chegar à essa conclusão:
A nova métrica que foi estabelecida por mim trata-se da adição de um termo novo à antiga, resultando em : numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana * numero_de_semanas_em_que_o_item_eh_vendido / 13
A ideia é tentar dar menos relevância aos itens que foram muito pouco vendidos, mas que devido ao seu preço, teriam uma relevância desproporcional.
No gráfico a seguir, realizamos uma comparação entre a representatividade dos itens segundo a primeira métrica (linha vermelha) e a métrica que leva em conta a frequência de venda (linha azul).
Nesse gráfico, vemos que os 2000 itens que representam mais de 80% da relevância segundo a nova métrica. Isso é interessante, porque realmente demonstra o potencial de impacto de poucos itens na função de avaliação.
No gráfico a seguir (relevância x itemID), podemos ver como poucos itens se mantém na mesma posição quando saímos da métrica antiga (gráfico superior) para a métrica proposta nesta issue (gráfico inferior). Isso acontece pois as vendas da maioria dos itens tendem a ser esparsas. A linha vermelha corresponde à média das relevâncias dos itens em suas respectivas médias. Outro ponto a ser observado é o fato de que a maioria dos itens tende a "assentar" quando usamos a métrica nova, o que demonstra ainda mais a capacidade de diferenciação entre os itens com vendas esparsas e os itens com vendas mais constantes.
O que foi descoberto?
No grupo do Telegram eu e @tobiasveiga discutirmos sobre uma possível métrica de relevância dos itens. Chegamos, na ocasião, à conclusão de que
numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana
poderia ser um bom ponto de partida. A partir dessa discussão eu tentei elaborar uma métrica um pouco melhor, baseada também na frequência de venda dos itens durante o período que o dataset cobre.Descreva seus passos/métodos para chegar à essa conclusão:
A nova métrica que foi estabelecida por mim trata-se da adição de um termo novo à antiga, resultando em :
numero_de_vendas_do_item_na_semana * valor_das_vendas_em_cada_semana * numero_de_semanas_em_que_o_item_eh_vendido / 13
A ideia é tentar dar menos relevância aos itens que foram muito pouco vendidos, mas que devido ao seu preço, teriam uma relevância desproporcional.
No gráfico a seguir, realizamos uma comparação entre a representatividade dos itens segundo a primeira métrica (linha vermelha) e a métrica que leva em conta a frequência de venda (linha azul).
Nesse gráfico, vemos que os 2000 itens que representam mais de 80% da relevância segundo a nova métrica. Isso é interessante, porque realmente demonstra o potencial de impacto de poucos itens na função de avaliação.
No gráfico a seguir (relevância x itemID), podemos ver como poucos itens se mantém na mesma posição quando saímos da métrica antiga (gráfico superior) para a métrica proposta nesta issue (gráfico inferior). Isso acontece pois as vendas da maioria dos itens tendem a ser esparsas. A linha vermelha corresponde à média das relevâncias dos itens em suas respectivas médias. Outro ponto a ser observado é o fato de que a maioria dos itens tende a "assentar" quando usamos a métrica nova, o que demonstra ainda mais a capacidade de diferenciação entre os itens com vendas esparsas e os itens com vendas mais constantes.