Open DavidBruant opened 4 years ago
Pour les features, c'est pas pour tout de suite : https://stackoverflow.com/questions/24715230/can-sklearn-random-forest-directly-handle-categorical-features (ptèt que pour les labels on peut faire qqch quand même)
celui de sklearn (Python)
...alors qu'une modélisation pertinente pour nous, c'est que les features soient booléennes et les boîtes sont un ensemble de valeurs discrètes. Je trouve ça bizarre que quand nos boîtes A et B sont transformées en float (1.0 et 2.0), l'algo se sente la liberté de prédire "1.35" alors que ça n'a rien à voir avec
on peut continuer comme ça pour le moment j'ai peur qu'on se fasse mordre plus tard (par exemple que si l'algo hésite entre
2.0
et4.0
, il se mette à nous prédire3.0
qui serait une boîte distincte à la fois de2.0
et4.0
)