datagouv / cadastre

Scripts de préparation des données cadastrales diffusées par Etalab
69 stars 11 forks source link

Champs nullable du fichier GeoJSON #72

Open ghisvail opened 5 years ago

ghisvail commented 5 years ago

Je cherche à charger les données Cadastre au format GeoJSON dans une table relationnelle pour de futurs traitements. Pour cela, j'ai besoin de définir un schéma qui soit représentatif des champs présents dans le sous-document properties, ce qui inclut leur nom, type et s'ils sont nullables ou pas.

J'ai observé que seul le champ contenance peut ne pas contenir de valeurs (dans le cas du 75, les ID sont 75113000DA0054 et 75113000DA0057). Pouvez-vous confirmer si c'est le seul champ nullable du document ?

jdesboeufs commented 5 years ago

Pour les parcelles les champs date sont aussi nullable. Un champ feuille pourrait apparaître à moyen terme, nullable aussi. Nous devrions publier le schéma.

ghisvail commented 5 years ago

Donc created et updated sont nullables aussi ?

ghisvail commented 5 years ago

Pour définir le schéma, je me suis servis de ce fichier source.

J'ai traduit la définition de la structure du document en ce code SQL:

CREATE TABLE CadastreParcelles(
                id          char(14) PRIMARY KEY,
                geometry    varchar(MAX) NOT NULL,
                commune     char(5) NOT NULL,
                prefixe     char(3) NOT NULL,
                section     varchar(2) NOT NULL,
                numero      varchar(4) NOT NULL,
                contenance  numeric(12) NULL,
                created     date NULL,
                updated     date NULL
)
ghisvail commented 5 years ago

Par contre, le champ contenance contient parfois des valeurs qui ne respectent ce schéma.

Dans le 94, il y a une parcelle avec une contenance de 0.12.

Dans le 95, il y a une parcelle avec une contenance de 65.3.

Est-ce une erreur ? Ou est-ce que le type de contenance devrait être changé en real ou float plutôt ?

ghisvail commented 5 years ago

En tout et pour tout sur l'IDF, ce sont 3 lignes (une dans le 94, deux dans le 95) où la valeur de contenance n'est pas compatible avec ce schéma.

ghisvail commented 5 years ago

@jdesboeufs peux-tu confirmer si le schéma SQL ci-dessus est correct ? Préfères-tu que je rapportes les valeurs de contenance non conformantes dans une issue séparée ?

glevsq commented 2 years ago

Dans le fichier cadastre-33-parcelles.json millésime 2022-04-01, je constate que le champ contenance est absent pour 710 parcelles (Les dates created et updated varient de 2002 à 2022)

2022-04-01 cadastre-33-parcelles.json _parcelles_contenance_null.csv

exemple {"id":"33056000AK0713","commune":"33056","prefixe":"000","section":"AK","numero":"713","arpente":true,"created":"2022-03-15","updated":"2022-03-15"}}, Dont 194 parcelles avec "arpente":true

@jdesboeufs est-ce que cette anomalie a déjà été identifiée, est-ce lié aux valeurs du champ contenance qui ne respectent le schéma ?