Ce repo a comme objectif de centraliser tous les programmes en lien avec le projet réalisé dans le cadre du cours GIF-7005 de la session d'automne 2018.
Faire une EDA (exploratory data analysis) sur les features classiques et simples pour voir lesquelles devraient être intégrées dans le pipeline pour tester les modèles. Ces features devraient être des données qu'on a deja a notre disposition:
search_cause
search_nresults
user_device
user_country
user_region
user_city
user_type
Peut-être sortir des mesures de "sparsity" de documents pour ces features qui nous aiderait a voir si certains documents (types de document) sont rattachés à des features en particulier (pas facile).
Faire une EDA (exploratory data analysis) sur les features classiques et simples pour voir lesquelles devraient être intégrées dans le pipeline pour tester les modèles. Ces features devraient être des données qu'on a deja a notre disposition:
search_cause
search_nresults
user_device
user_country
user_region
user_city
user_type
Peut-être sortir des mesures de "sparsity" de documents pour ces features qui nous aiderait a voir si certains documents (types de document) sont rattachés à des features en particulier (pas facile).