Open Robenson-Muscat opened 2 weeks ago
J'ai fait un PCA afin de voir les variables les mieux expliquées dans les deux premières composantes principales, j'ai aussi ajouté ton idée de prendre en compte le temps de trajet (que j'ai exprimé en minute) et qui est dans la variable trip_duration
.
Par contre, la coordonnée longitudinale associée à l'endroit de prise en charge semble être corrélé avec le montant du pourboire :
Ce qu'on peut essayer dans un premier temps, c'est de réduire nos données de cette manière
Les deux premières colonnes sont l'heure de prise en charge du client et l'heure à laquelle le client quitte le taxi. On peut créer une colonne dropoff - pickup pour avoir le temps de trajet
time_journey
.On supprime les taxes :
MTA_tax
,Improvement_surcharge
,Congestion_Surcharge
On supprime les 4 dernières colonnes qui sont des données de localisation ( On est à New York donc peu d'influence)