La fonction build_synthetic_dataset permet de générer un dataset artificiel respectant le secret statistique, en synthétisant des établissements sur la base d'établissements réels présents dans Features, appartenant tous à un même sous-secteur (code APE de niveau 3). L'utilisateur de cette fonction peut choisir combien d'établissements du même sous-secteur agréger pour former un synthétique. Il peut également sélectionner les champs de Features à inclure dans l'extrait de données produit.
La fonction retourne un DataFrame pandas ayant la même structure qu'un SFDataset ayant requêté la collection Features, mais les SIRET et SIREN associés sont synthétiques, et tous variables associées à chaque SIREN proviennent de ces mêmes variables sur plusieurs SIREN réels, choisis aléatoirement dans la base d'entrée et absent du DataFrame retourné.
Pistes d'évolution avant PR:
A terme, la synthèse pourra se faire sur un critère de groupement arbitraire, pas seulement en groupant par code APE de niveau 3.
Il faut ajouter des warning lorsque le nombre d'établissements par groupement est trop petit pour forcer le respect du secret statistique.
La fonction
build_synthetic_dataset
permet de générer un dataset artificiel respectant le secret statistique, en synthétisant des établissements sur la base d'établissements réels présents dans Features, appartenant tous à un même sous-secteur (code APE de niveau 3). L'utilisateur de cette fonction peut choisir combien d'établissements du même sous-secteur agréger pour former un synthétique. Il peut également sélectionner les champs de Features à inclure dans l'extrait de données produit.La fonction retourne un DataFrame pandas ayant la même structure qu'un SFDataset ayant requêté la collection Features, mais les SIRET et SIREN associés sont synthétiques, et tous variables associées à chaque SIREN proviennent de ces mêmes variables sur plusieurs SIREN réels, choisis aléatoirement dans la base d'entrée et absent du DataFrame retourné.
Pistes d'évolution avant PR: