Open thbar opened 1 year ago
J'ai fait un data profiling rapide du champ, voilà par exemple ce qu'on voit:
❯ dsq --pretty consolidation-etalab-schema-irve-v-2.0.3-20221012.csv "select count(*), gratuit from {} group by gratuit"
+----------+---------+
| count(*) | gratuit |
+----------+---------+
| 805 | 0 |
| 92 | 1 |
| 614 | FALSE |
| 221 | False |
| 21 | TRUE |
| 9 | True |
| 20833 | false |
| 1248 | true |
+----------+---------+
(8 rows)
En travaillant sur #22 avec @ChristinaLaumond aujourd'hui, on a été amené à voir ce qui était présent en terme de données dans la base nationale pour le champ
gratuit
, qui est un champ booléen frictionless.Au final on se rend compte que:
[ "true", "True", "TRUE", "1" ]
[ "false", "False", "FALSE", "0" ]
On gagnerait à homogénéiser, au moins en sortie de la consolidation, ces valeurs pour les "conformer".