Pinklady01 / Trie_mes_mails

0 stars 1 forks source link

L'algo RandomForestClassifier qu'on utilise ne traite que des floats #5

Open DavidBruant opened 4 years ago

DavidBruant commented 4 years ago

celui de sklearn (Python)

...alors qu'une modélisation pertinente pour nous, c'est que les features soient booléennes et les boîtes sont un ensemble de valeurs discrètes. Je trouve ça bizarre que quand nos boîtes A et B sont transformées en float (1.0 et 2.0), l'algo se sente la liberté de prédire "1.35" alors que ça n'a rien à voir avec

on peut continuer comme ça pour le moment j'ai peur qu'on se fasse mordre plus tard (par exemple que si l'algo hésite entre 2.0 et 4.0, il se mette à nous prédire 3.0 qui serait une boîte distincte à la fois de 2.0 et 4.0)

DavidBruant commented 4 years ago

Pour les features, c'est pas pour tout de suite : https://stackoverflow.com/questions/24715230/can-sklearn-random-forest-directly-handle-categorical-features (ptèt que pour les labels on peut faire qqch quand même)