etalab / schema-irve

TableSchema pour les Infrastructures de Recharge de Véhicules Electriques (IRVE)
10 stars 10 forks source link

Homogénéisation de la donnée booléenne consolidée à prévoir #23

Open thbar opened 1 year ago

thbar commented 1 year ago

En travaillant sur #22 avec @ChristinaLaumond aujourd'hui, on a été amené à voir ce qui était présent en terme de données dans la base nationale pour le champ gratuit, qui est un champ booléen frictionless.

Au final on se rend compte que:

On gagnerait à homogénéiser, au moins en sortie de la consolidation, ces valeurs pour les "conformer".

thbar commented 1 year ago

J'ai fait un data profiling rapide du champ, voilà par exemple ce qu'on voit:

❯ dsq --pretty consolidation-etalab-schema-irve-v-2.0.3-20221012.csv "select count(*), gratuit from {} group by gratuit"
+----------+---------+
| count(*) | gratuit |
+----------+---------+
|      805 |       0 |
|       92 |       1 |
|      614 | FALSE   |
|      221 | False   |
|       21 | TRUE    |
|        9 | True    |
|    20833 | false   |
|     1248 | true    |
+----------+---------+
(8 rows)