signaux-faibles / predictsignauxfaibles

Dépôt du code python permettant la production de liste de prédiction Signaux Faibles.
MIT License
6 stars 1 forks source link

feat: adding function to generate synthetic data from Features #57

Closed slebastard closed 3 years ago

slebastard commented 3 years ago

La fonction build_synthetic_dataset permet de générer un dataset artificiel respectant le secret statistique, en synthétisant des établissements sur la base d'établissements réels présents dans Features, appartenant tous à un même sous-secteur (code APE de niveau 3). L'utilisateur de cette fonction peut choisir combien d'établissements du même sous-secteur agréger pour former un synthétique. Il peut également sélectionner les champs de Features à inclure dans l'extrait de données produit.

La fonction retourne un DataFrame pandas ayant la même structure qu'un SFDataset ayant requêté la collection Features, mais les SIRET et SIREN associés sont synthétiques, et tous variables associées à chaque SIREN proviennent de ces mêmes variables sur plusieurs SIREN réels, choisis aléatoirement dans la base d'entrée et absent du DataFrame retourné.

Pistes d'évolution avant PR: