Closed christopheprudent closed 7 years ago
j'ai repris le traitement des écarts à partir du dump du 1/8 avec les totaux suivants:
db | data | count |
---|---|---|
BAN | Group | 7529403 |
RAN | Group | 2240388 |
BAN | Housenumber | 26197611 |
RAN | Housenumber | 19429540 |
BAN | Municipality | 36703 |
RAN | Municipality | 36076 |
BAN | Postcode | 36883 |
RAN | Postcode | 36074 |
et le résultat des comparaisons pour chaque éléments d'adresse (Municipality, Postcode, Group, Housenumber) : la comparaison se base sur les clés suivantes, avec les écarts en plus, en moins notés +, - (dans la colonne delta ci-dessous)
data | key |
---|---|
Municipality | insee |
Postcode | code, name |
Group | insee, name |
Housenumber | insee, name, number, ordinal |
et en cas d'égalité des clés, les écarts en modification, notés !, pour leurs attributs différents:
data | attributs |
---|---|
Municipality | name |
Postcode | insee |
Group | l5_insee, id, CEA |
Housenumber | code, CEA |
A noter que pour l'élément Group, la clé de comparaison entre BAN et RAN est donc INSEE, libellé Voie normé (calculé à partir du libellé BAN, mis en majuscule, sans accent, sans trait union), mais je n'ai pas alors obtenu la même qualité de libellé approchant, et je compte alors en écart des choses qui sont en fait OK dans la BAN, voir ci-dessous les variations OK : je ne sais pas si je suis bien clair :question:
data | delta | count |
---|---|---|
Group | - | 2130169 |
Group | ! | 1542 |
Group | + | 5274064 |
Housenumber | - | 5755843 |
Housenumber | ! | 36178 |
Housenumber | + | 7472044 |
Municipality | - | 53 |
Municipality | ! | 568 |
Municipality | + | 785 |
Postcode | - | 365 |
Postcode | + | 1169 |
les données Voies sont à priori rapprochées seulement pour les départements 06, 33 et 90, avec en tout , 51 345 voies avec CEA, mais sans lien de code postal (voir précédent message) et 15 944 750 numéros avec CEA
les données comparées sont disponibles sur un autre site GitHub : https://github.com/LaPosteSNA/check-init-of-BAN, dans le dossier ./data ex: visions BAN/RAN des données Voie trouvées en delta ! (attributs différents) dans https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/print_delta_u_group.txt
en premières analyses, quelques soucis de rapprochement :-1: pour les voies sont dus à:
inversion de rattachement en cas de libellés approchants ex: BAN | 33221 | LOTISSEMENT SAINT MARTIN | 597558 | 3322122247 | 33221 | ! RAN | 33221 | LOTISSEMENT SAINT MARTIN | 4358635 | 332212232Y | 33221 | ! BAN | 33221 | SAINT MARTIN | 4358635 | 332212232Y | 33221 | ! RAN | 33221 | SAINT MARTIN | 597558 | 3322122247 | 33221 | !
BAN | 33120 | HURADIN NORD | 4342029 | 33120223TV | 33120 | ! RAN | 33120 | HURADIN NORD | 591442 | 331202223C | 33120 | ! BAN | 33120 | HURADIN SUD | 591442 | 331202223C | 33120 | ! RAN | 33120 | HURADIN SUD | 4342029 | 33120223TV | 33120 | !
et d'autres par contre sont OK :+1:, malgré les variations d'écriture
à noter enfin, que les rattachements à un quartier (L5 dans RAN) ne sont pas présents dans la BAN
analyse des écarts Group sur le dump du 24/8
data | delta | count |
---|---|---|
Group | - | 621791 |
Group | ! | 493132 |
Group | + | 5337613 |
pour cette nouvelle analyse, j'ai changé le mode de rapprochement entre la BAN et RAN : j'utilise ici la clé POSTE (group.laposte), qui correspond au matricule Voie (clé présente dans le fichier HEXAVIA) je pense en effet que cette approche sera celle qui nous permettra plus facilement de "valider" le contenu de la BAN, par rapport à notre propre référentiel (RAN)
avec
data | attributs |
---|---|
Group | l5_insee, name, CEA |
Au sujet des 600 000 groupes RAN non retrouvés dans la BAN, nous avons évoqué ce point lundi 29/08 lors de la réunion BAN team. Cet écart pourrait être présent dans les données IGN (export BDUNI/SGA) qui ont servi à l'initialisation de la BAN. Il pourrait aussi venir d'un bug lors de l'export IGN ou de l'init de la BAN. Il serait intéressant d'avoir plus d'informations sur le processus d'initialisation et le remplissage de la clé poste (cf ticket #164). Sur le département 33, l'export IGN (fourni début juillet) comprend 55381 groupes (donc voies/lieux-dits). 44675 groupes ont un matricule voie. @christopheprudent , je t'envoie ce fichier par mail pour pousser l'analyse. Pourras-tu en retour nous envoyer les voies du RAN sur ce département avec le matricule voie ?
tu as cet export ci-dessus dans le lien du cas moins, voir commentaire : print_delta_group_minus_33.txt
j'ai récupéré le fichier ban_group_33 IGN, et les voies manquantes BAN/RAN y sont bien présentes le souci provient à priori du fait du codage FANTOIR avec un dièse
33048#004;péchot;;;00584402;LIEU DIT PECHOT;00584402;;;33048
33002#00C;bois majou;;;00580357;BOIS MAJOU;00580357;;;33002
33251#002;augine;;;;;;B009;B009;33251
33077#012;mouréou;;;00588861;LIEU DIT MOUREOU;00588861;;;33077
Un petit remarque : le premier champ est l'identifiant IGN. Il correspond souvent au fantoir. Mais il y a pas mal de cas où ce champ comprend un # (par exemple quand la voie est créé dans la base IGN avant que l'on intègre le fantoir). La valeur n'a alors plus rien à voir avec le fantoir mais c'est un code propre IGN. Pour avoir le code fantoir, il faut utiliser le 7 ème champ du fichier (id_fantoir) et pas l'identifiant IGN.
Quelques infos sur le premier cas mentionné (PECHOT):
IGN : 3 lieux-dits "pechot" dans les données IGN :
Les données ne sont pas appariées dans les données IGN (est-ce normal ?) d'où la présence de ces 3 lieux-dits : 2 DGFIP et 1 La Poste.
id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33048B037";"pechot nord";"";"Classique";"";"";"";"B037";"B037";"33048" "33048B036";"pechot sud";"";"Classique";"";"";"";"B036";"B036";"33048" "33048#004";"péchot";"";"";"00584402";"LIEU DIT PECHOT";"00584402";"";"";"33048"
BAN : Dans les données BAN, on ne retrouve que les 2 lieux-dits DGFIP pk,name,fantoir,laposte 2486358;"Pechot Nord";"33048B037";"" 2486357;"Péchot Sud";"33048B036";""
Soit il manque dans la BAN un lieu-dit IGN/La Poste, soit il manque un lien d'appariement avec ce lieu-dit. Au vu des adresses liées et des coordonnées, je dirais qu'il manque un lien d'appariement (avec pechot sud ?) à la fois dans la BAN et les données IGN ???
Adresses liées : IGN : 33048B037 -> une adresse le numéro 25 33048B036 -> 17 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","26 ","3 ","3 ","4 B","4 ","5 B","5001 ","5002 ","6 ","7 ","8 ","9 "}") 33048#004 -> 13 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","3 ","4 BIS","4 ","5 ","6 ","7 ","8 ","9 "}")
BAN : 2486358 -> une adresse le numero 25 2486357 -> 17 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","26 ","3 ","4 B","4 ","5 BIS","5 B","5001 ","5002 ","6 ","7 ","8 ","9 "}")
tu as raison, il semble que le lien manquant porte sur le libellé Péchot Sud, au vu des données Numéros de cette voie
pas évident à automatiser, il faudrait alors tenir compte de cette liste de numéro, pour appairer 2 voies, de nom approchant, mais en différenciant alors le libellé retenu (BAN: Péchot Sud, LaPoste: Péchot)
Les autres cas mentionnés par @christopheprudent semblent similaires au cas de "PECHOT" :
-------------------------- CAS 2 : BOIS MAJOU -------------------------------------------
IGN : 5 lieux-dits "bois majou" dans les données IGN :
le "Bois Majou" de La Poste n'a pas été apparié avec les autres "bois majou sud " (...) dans les données IGN.
id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33002B045";"bois majou sud";"";"";"";"";"";"B045";"B045";"33002" "33002B044";"bois-majou-nord";"";"Classique";"";"";"";"B044";"B044";"33002" "33002B042";"bois majou sud-est";"";"Classique";"";"";"";"B042";"B042";"33002" "33002B106";"grand bois majou nord";"";"Linéaire";"00580361";"GRAND BOIS MAJOUNORD";"00580361";"B106";"B106";"33002" "33002#00C";"bois majou";"";"";"00580357";"BOIS MAJOU";"00580357";"";"";"33002"
BAN : Dans les données BAN, on ne retrouve que les 3 lieux-dits DGFIP seuls et le lieu-dit DGFIP/La Poste. Mais pas le lieu-dit, La Poste seul. pk,name,fantoir,laposte 2477333;"Bois Majou Sud-Est";"33002B045";"" 2477330;"Bois Majou Sud-Est";"33002B042";"" 2477332;"Bois-Majou-Nord";"33002B044";"" 2477390;"Grand Bois Majou Nord";"33002B106";"00580361"
Il manque dans la BAN un lieu-dit IGN/La Poste ou un lien d'appariement ce lieu-dit.
-------------------------- CAS 3 : AUGINE ------------------------------------------- Je ne retrouve pas ce cas dans le fichier RAN (dans https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/print_delta_group_minus_33.txt)
IGN : 1 seul lieu-dit "augine" provenant uniquement de la DGFIP.
id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33251#002";"augine";"";"";"";"";"";"B009";"B009";"33251"
BAN : Dans les données BAN, on trouve 2 lieux-dits DGFIP :
pk,name,fantoir,laposte 2520507;"AUGINE-OUEST";"33251B009";"" 2520504;"AUGINE-EST";"33251B008";""
-------------------------- CAS 4 : MOUREOU -------------------------------------------
IGN : 5 lieux-dits "moureou" dans les données IGN :
le "mouréou" de La Poste n'a pas été apparié avec les autres "mouréou " (...) dans les données IGN.
id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33077B165";"moureou-sud";"";"Classique";"";"";"";"B165";"B165";"33077" "33077B164";"moureou-ouest";"";"Classique";"";"";"";"B164";"B164";"33077" "33077B163";"moureou-est";"";"Classique";"";"";"";"B163";"B163";"33077" "33077B122";"lande de moureou";"";"Classique";"";"";"";"B122";"B122";"33077" "33077#012";"mouréou";"";"";"00588861";"LIEU DIT MOUREOU";"00588861";"";"";"33077"
BAN : Dans les données BAN, on trouve 5 lieux-dits DGFIP "moureou". Aucun La Poste pk,name,fantoir,laposte 2493058;"Moureou-Sud";"33077B165";"" 2493038;"Moureou-Sud";"33077B142";"" 2493024;"Lande de Moureou";"33077B122";"" 2493056;"Moureou-Est";"33077B163";"" 2493057;"Moureou-Ouest";"33077B164";""
Il manque dans la BAN un lieu-dit IGN/La Poste ou un lien d'appariement sur ce lieu-dit.
bilan BAN (côté LaPOSTE) sur dump 20160824
% VOIES avec ID_POSTE | % VOIES avec CEA_POSTE | % NUMEROS avec CEA_POSTE | % NUMEROS avec CP | % VOIES rapprochées POSTE (ID) | % VOIES rapprochées POSTE (CEA) | % NUMEROS rapprochés POSTE (CEA) |
---|---|---|---|---|---|---|
21.50 | 21.50 | 60.67 | 80.66 | 72.26 | 72.26 | 81.80 |
à noter que ce chiffrage des numéros exclut les données de Housenumber avec number à NULL
voici les résultats de comparaison BAN/LaPOSTE sur le dump réduit (06-33) du 21/9
avec au total:
data | db | zone | count |
---|---|---|---|
Group | BAN | 126017 | |
Group | RAN | 62016 | |
Housenumber | BAN | 1012619 | |
Housenumber | RAN | 747442 | |
Municipality | BAN | 705 | |
Municipality | RAN | 711 | |
Postcode | BAN | 717 | |
Postcode | RAN | 711 |
et les écarts:
data | delta | count |
---|---|---|
Group | - | 525 |
Group | ! | 25104 |
Group | + | 50254 |
Housenumber | - | 192100 |
Housenumber | ! | 2662 |
Housenumber | + | 182394 |
Municipality | ! | 3 |
Municipality | + | 2 |
Postcode | - | 1 |
Postcode | + | 7 |
Municipality
db | insee | name | norme | delta |
---|---|---|---|---|
BAN | 06107 | Roquestéron-Grasse | ROQUESTERON GRASSE | ! |
RAN | 06107 | LA ROQUE EN PROVENCE | LA ROQUE EN PROVENCE | ! |
BAN | 33018 | Aubie-et-Espessas | AUBIE ET ESPESSAS | ! |
RAN | 33018 | VAL DE VIRVEE | VAL DE VIRVEE | ! |
BAN | 33371 | Saint-Antoine | ST ANTOINE | + |
BAN | 33495 | Salignac | SALIGNAC | + |
BAN | 33496 | Sallebœuf | SALLEBEUF | ! |
RAN | 33496 | SALLEBOEUF | SALLEBOEUF | ! |
remarque: je me suis rendu compte en fait que les libellés avec OE sont en fait différents dans le référentiel LaPOSTE !
Postcode
db | insee | code | name | delta |
---|---|---|---|---|
BAN | 06029 | 06150 | CANNES | + |
BAN | 06004 | 06160 | ANTIBES | + |
BAN | 06069 | 06520 | GRASSE | + |
BAN | 33529 | 33115 | LA TESTE DE BUCH | + |
BAN | 33154 | 33230 | LES EGLISOTTES | + |
RAN | 33154 | 33230 | LES EGLISOTTES ET CHALAURES | - |
BAN | 33495 | 33240 | SALIGNAC | + |
BAN | 33371 | 33240 | ST ANTOINE | + |
Group
voir https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/20160921_delta_group.txt.gzHousenumber
https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/20160921_delta_housenumber.txt.gzavec au final les statistiques suivantes:
% VOIES avec ID_POSTE | % VOIES avec CEA_POSTE | % NUMEROS avec CEA_POSTE | % NUMEROS avec CP_POSTE | % VOIES rapprochées POSTE (ID) | % VOIES rapprochées POSTE (CEA) | % NUMEROS rapprochés POSTE (CEA) |
---|---|---|---|---|---|---|
48.80 | 48.77 | 68.41 | 72.85 | 99.22 | 99.16 | 92.68 |
Il faudrait découper ce ticket en plusieurs sous-tickets en indiquant les points à corriger/améliorer pour y voir plus clair. Et indiquer ce qui acceptable ou non pour la mise en prod.
Des chiffres plus détaillés sur les écarts entre HN BAN et La Poste sont dans le ticket #175
Fermé au profit du ticket https://github.com/BaseAdresseNationale/donnees-initiales/issues/12
pas encore de comptage, mais des premiers constats
Housenumber
avec number à NULL, mais sans postcode_id ! nécessaire pour mémoriser le bon CEA d'une voie multi-CP (voir issue #102 ), avec donc le lien sur le CP