joaopedromattos / DMC2020

Repositório que contém todo o progresso obitdo pelo time do Data durante a competição Data Mining Cup 2020.
MIT License
2 stars 1 forks source link

Feature: diferença da moda #4

Open GustavoSasaki opened 4 years ago

GustavoSasaki commented 4 years ago

O info.csv mostra promoções que acontecerão no período da task, mas não temos informações sobre promoções que já aconteceram, tentei criar uma feature que capturar isso.

Primeiro calculei a moda dos salesPrice para cada itemID. a feature resultante é modeSalesPrice

Observação: 80% das instâncias tem seu valor de venda(salesPrice) igual a moda(modeSalesPrice)

Depois calculei a diferença do salesPrice com modeSalesPrice. Caso o salesPrice seja menor, seria como se tive-se uma promocao na hora da venda Caso maior seria como tive-se um super-faturamento. a feature resultante é difModa.

https://github.com/joaopedromattos/DMC2020/blob/master/sasaki/featureModa.ipynb

Alguem poderia me expicar como verificar se a feature é boa?

BrunoGomesCoelho commented 4 years ago

Nice!

Geralmente quando é um problema de classificação simples da pra ver a própria ROC da curva, mas para o de regressão é uma boa pergunta... o esquema seria ver a importância da feature de acordo com o modelo (but, Beware Default Feature Importance, talvez rodar um eli5 seja melhor) e ver se ela ajuda ou não :eyes: