Vous travaillez pour la société jachetetoutlimmobilier. Cette dernière veut repérer les maisons intéressantes à acheter selon un algorithme de machine learning.
Pour cela elle a fait travailler un datascientist qui a préparé le set qui contient 82 variables.
data_processing.ipynb
contient l'analyse de données, on y regarde la distribution des variables, leurs relations, le nombre de valeurs manquantes ou encore les outliers.main.py
lance le traitement des données pour le training et test sets via le module GetDataFrame. GetDataFrame.py
, on remplace les valeurs manquantes, on ajoute de nouvelles features, modifie les outliers puis transforme les variables. training_models.ipynb
, entraine les algorithmes LinearRegression, Lasso, Ridge, ElasticNet et XGBoost, les indicateurs de performances sont stockés dans le fichier regression_models.csv
.