ban-archive / api-gestion-poc

POC pour une API de gestion BAN
15 stars 11 forks source link

écarts BAN/LaPOSTE sur init #154

Closed christopheprudent closed 7 years ago

christopheprudent commented 8 years ago

pas encore de comptage, mais des premiers constats

christopheprudent commented 8 years ago

j'ai repris le traitement des écarts à partir du dump du 1/8 avec les totaux suivants:

db data count
BAN Group 7529403
RAN Group 2240388
BAN Housenumber 26197611
RAN Housenumber 19429540
BAN Municipality 36703
RAN Municipality 36076
BAN Postcode 36883
RAN Postcode 36074

et le résultat des comparaisons pour chaque éléments d'adresse (Municipality, Postcode, Group, Housenumber) : la comparaison se base sur les clés suivantes, avec les écarts en plus, en moins notés +, - (dans la colonne delta ci-dessous)

data key
Municipality insee
Postcode code, name
Group insee, name
Housenumber insee, name, number, ordinal

et en cas d'égalité des clés, les écarts en modification, notés !, pour leurs attributs différents:

data attributs
Municipality name
Postcode insee
Group l5_insee, id, CEA
Housenumber code, CEA

A noter que pour l'élément Group, la clé de comparaison entre BAN et RAN est donc INSEE, libellé Voie normé (calculé à partir du libellé BAN, mis en majuscule, sans accent, sans trait union), mais je n'ai pas alors obtenu la même qualité de libellé approchant, et je compte alors en écart des choses qui sont en fait OK dans la BAN, voir ci-dessous les variations OK : je ne sais pas si je suis bien clair :question:

data delta count
Group - 2130169
Group ! 1542
Group + 5274064
Housenumber - 5755843
Housenumber ! 36178
Housenumber + 7472044
Municipality - 53
Municipality ! 568
Municipality + 785
Postcode - 365
Postcode + 1169

les données Voies sont à priori rapprochées seulement pour les départements 06, 33 et 90, avec en tout , 51 345 voies avec CEA, mais sans lien de code postal (voir précédent message) et 15 944 750 numéros avec CEA

les données comparées sont disponibles sur un autre site GitHub : https://github.com/LaPosteSNA/check-init-of-BAN, dans le dossier ./data ex: visions BAN/RAN des données Voie trouvées en delta ! (attributs différents) dans https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/print_delta_u_group.txt

en premières analyses, quelques soucis de rapprochement :-1: pour les voies sont dus à:

et d'autres par contre sont OK :+1:, malgré les variations d'écriture

à noter enfin, que les rattachements à un quartier (L5 dans RAN) ne sont pas présents dans la BAN

christopheprudent commented 8 years ago

analyse des écarts Group sur le dump du 24/8

data delta count
Group - 621791
Group ! 493132
Group + 5337613

pour cette nouvelle analyse, j'ai changé le mode de rapprochement entre la BAN et RAN : j'utilise ici la clé POSTE (group.laposte), qui correspond au matricule Voie (clé présente dans le fichier HEXAVIA) je pense en effet que cette approche sera celle qui nous permettra plus facilement de "valider" le contenu de la BAN, par rapport à notre propre référentiel (RAN)

avec

data attributs
Group l5_insee, name, CEA
odorie commented 8 years ago

Au sujet des 600 000 groupes RAN non retrouvés dans la BAN, nous avons évoqué ce point lundi 29/08 lors de la réunion BAN team. Cet écart pourrait être présent dans les données IGN (export BDUNI/SGA) qui ont servi à l'initialisation de la BAN. Il pourrait aussi venir d'un bug lors de l'export IGN ou de l'init de la BAN. Il serait intéressant d'avoir plus d'informations sur le processus d'initialisation et le remplissage de la clé poste (cf ticket #164). Sur le département 33, l'export IGN (fourni début juillet) comprend 55381 groupes (donc voies/lieux-dits). 44675 groupes ont un matricule voie. @christopheprudent , je t'envoie ce fichier par mail pour pousser l'analyse. Pourras-tu en retour nous envoyer les voies du RAN sur ce département avec le matricule voie ?

christopheprudent commented 8 years ago

tu as cet export ci-dessus dans le lien du cas moins, voir commentaire : print_delta_group_minus_33.txt

christopheprudent commented 8 years ago

j'ai récupéré le fichier ban_group_33 IGN, et les voies manquantes BAN/RAN y sont bien présentes le souci provient à priori du fait du codage FANTOIR avec un dièse

33048#004;péchot;;;00584402;LIEU DIT PECHOT;00584402;;;33048
33002#00C;bois majou;;;00580357;BOIS MAJOU;00580357;;;33002
33251#002;augine;;;;;;B009;B009;33251
33077#012;mouréou;;;00588861;LIEU DIT MOUREOU;00588861;;;33077
odorie commented 8 years ago

Un petit remarque : le premier champ est l'identifiant IGN. Il correspond souvent au fantoir. Mais il y a pas mal de cas où ce champ comprend un # (par exemple quand la voie est créé dans la base IGN avant que l'on intègre le fantoir). La valeur n'a alors plus rien à voir avec le fantoir mais c'est un code propre IGN. Pour avoir le code fantoir, il faut utiliser le 7 ème champ du fichier (id_fantoir) et pas l'identifiant IGN.

Quelques infos sur le premier cas mentionné (PECHOT):

IGN : 3 lieux-dits "pechot" dans les données IGN :

Les données ne sont pas appariées dans les données IGN (est-ce normal ?) d'où la présence de ces 3 lieux-dits : 2 DGFIP et 1 La Poste.

id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33048B037";"pechot nord";"";"Classique";"";"";"";"B037";"B037";"33048" "33048B036";"pechot sud";"";"Classique";"";"";"";"B036";"B036";"33048" "33048#004";"péchot";"";"";"00584402";"LIEU DIT PECHOT";"00584402";"";"";"33048"

BAN : Dans les données BAN, on ne retrouve que les 2 lieux-dits DGFIP pk,name,fantoir,laposte 2486358;"Pechot Nord";"33048B037";"" 2486357;"Péchot Sud";"33048B036";""

Soit il manque dans la BAN un lieu-dit IGN/La Poste, soit il manque un lien d'appariement avec ce lieu-dit. Au vu des adresses liées et des coordonnées, je dirais qu'il manque un lien d'appariement (avec pechot sud ?) à la fois dans la BAN et les données IGN ???

Adresses liées : IGN : 33048B037 -> une adresse le numéro 25 33048B036 -> 17 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","26 ","3 ","3 ","4 B","4 ","5 B","5001 ","5002 ","6 ","7 ","8 ","9 "}") 33048#004 -> 13 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","3 ","4 BIS","4 ","5 ","6 ","7 ","8 ","9 "}")

BAN : 2486358 -> une adresse le numero 25 2486357 -> 17 adresses (numéro "{"1 ","11 ","12 ","13 ","2 ","26 ","3 ","4 B","4 ","5 BIS","5 B","5001 ","5002 ","6 ","7 ","8 ","9 "}")

christopheprudent commented 8 years ago

tu as raison, il semble que le lien manquant porte sur le libellé Péchot Sud, au vu des données Numéros de cette voie numero_voie-584402

pas évident à automatiser, il faudrait alors tenir compte de cette liste de numéro, pour appairer 2 voies, de nom approchant, mais en différenciant alors le libellé retenu (BAN: Péchot Sud, LaPoste: Péchot)

odorie commented 8 years ago

Les autres cas mentionnés par @christopheprudent semblent similaires au cas de "PECHOT" :


-------------------------- CAS 2 : BOIS MAJOU -------------------------------------------

IGN : 5 lieux-dits "bois majou" dans les données IGN :

le "Bois Majou" de La Poste n'a pas été apparié avec les autres "bois majou sud " (...) dans les données IGN.

id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33002B045";"bois majou sud";"";"";"";"";"";"B045";"B045";"33002" "33002B044";"bois-majou-nord";"";"Classique";"";"";"";"B044";"B044";"33002" "33002B042";"bois majou sud-est";"";"Classique";"";"";"";"B042";"B042";"33002" "33002B106";"grand bois majou nord";"";"Linéaire";"00580361";"GRAND BOIS MAJOUNORD";"00580361";"B106";"B106";"33002" "33002#00C";"bois majou";"";"";"00580357";"BOIS MAJOU";"00580357";"";"";"33002"

BAN : Dans les données BAN, on ne retrouve que les 3 lieux-dits DGFIP seuls et le lieu-dit DGFIP/La Poste. Mais pas le lieu-dit, La Poste seul. pk,name,fantoir,laposte 2477333;"Bois Majou Sud-Est";"33002B045";"" 2477330;"Bois Majou Sud-Est";"33002B042";"" 2477332;"Bois-Majou-Nord";"33002B044";"" 2477390;"Grand Bois Majou Nord";"33002B106";"00580361"

Il manque dans la BAN un lieu-dit IGN/La Poste ou un lien d'appariement ce lieu-dit.


-------------------------- CAS 3 : AUGINE ------------------------------------------- Je ne retrouve pas ce cas dans le fichier RAN (dans https://github.com/LaPosteSNA/check-init-of-BAN/blob/master/data/print_delta_group_minus_33.txt)

IGN : 1 seul lieu-dit "augine" provenant uniquement de la DGFIP.

id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33251#002";"augine";"";"";"";"";"";"B009";"B009";"33251"

BAN : Dans les données BAN, on trouve 2 lieux-dits DGFIP :

pk,name,fantoir,laposte 2520507;"AUGINE-OUEST";"33251B009";"" 2520504;"AUGINE-EST";"33251B008";""


-------------------------- CAS 4 : MOUREOU -------------------------------------------

IGN : 5 lieux-dits "moureou" dans les données IGN :

le "mouréou" de La Poste n'a pas été apparié avec les autres "mouréou " (...) dans les données IGN.

id_pseudo_fpb;nom;alias;type_d_adressage;id_poste;nom_afnor;id_postes;id_fantoir;id_fantoirs;code_insee "33077B165";"moureou-sud";"";"Classique";"";"";"";"B165";"B165";"33077" "33077B164";"moureou-ouest";"";"Classique";"";"";"";"B164";"B164";"33077" "33077B163";"moureou-est";"";"Classique";"";"";"";"B163";"B163";"33077" "33077B122";"lande de moureou";"";"Classique";"";"";"";"B122";"B122";"33077" "33077#012";"mouréou";"";"";"00588861";"LIEU DIT MOUREOU";"00588861";"";"";"33077"

BAN : Dans les données BAN, on trouve 5 lieux-dits DGFIP "moureou". Aucun La Poste pk,name,fantoir,laposte 2493058;"Moureou-Sud";"33077B165";"" 2493038;"Moureou-Sud";"33077B142";"" 2493024;"Lande de Moureou";"33077B122";"" 2493056;"Moureou-Est";"33077B163";"" 2493057;"Moureou-Ouest";"33077B164";""

Il manque dans la BAN un lieu-dit IGN/La Poste ou un lien d'appariement sur ce lieu-dit.

christopheprudent commented 8 years ago

bilan BAN (côté LaPOSTE) sur dump 20160824

% VOIES avec ID_POSTE % VOIES avec CEA_POSTE % NUMEROS avec CEA_POSTE % NUMEROS avec CP % VOIES rapprochées POSTE (ID) % VOIES rapprochées POSTE (CEA) % NUMEROS rapprochés POSTE (CEA)
21.50 21.50 60.67 80.66 72.26 72.26 81.80

à noter que ce chiffrage des numéros exclut les données de Housenumber avec number à NULL

christopheprudent commented 8 years ago

voici les résultats de comparaison BAN/LaPOSTE sur le dump réduit (06-33) du 21/9

avec au total:

data db zone count
Group BAN 126017
Group RAN 62016
Housenumber BAN 1012619
Housenumber RAN 747442
Municipality BAN 705
Municipality RAN 711
Postcode BAN 717
Postcode RAN 711

et les écarts:

data delta count
Group - 525
Group ! 25104
Group + 50254
Housenumber - 192100
Housenumber ! 2662
Housenumber + 182394
Municipality ! 3
Municipality + 2
Postcode - 1
Postcode + 7
christopheprudent commented 8 years ago
db insee name norme delta
BAN 06107 Roquestéron-Grasse ROQUESTERON GRASSE !
RAN 06107 LA ROQUE EN PROVENCE LA ROQUE EN PROVENCE !
BAN 33018 Aubie-et-Espessas AUBIE ET ESPESSAS !
RAN 33018 VAL DE VIRVEE VAL DE VIRVEE !
BAN 33371 Saint-Antoine ST ANTOINE +
BAN 33495 Salignac SALIGNAC +
BAN 33496 Sallebœuf SALLEBEUF !
RAN 33496 SALLEBOEUF SALLEBOEUF !

remarque: je me suis rendu compte en fait que les libellés avec OE sont en fait différents dans le référentiel LaPOSTE !

db insee code name delta
BAN 06029 06150 CANNES +
BAN 06004 06160 ANTIBES +
BAN 06069 06520 GRASSE +
BAN 33529 33115 LA TESTE DE BUCH +
BAN 33154 33230 LES EGLISOTTES +
RAN 33154 33230 LES EGLISOTTES ET CHALAURES -
BAN 33495 33240 SALIGNAC +
BAN 33371 33240 ST ANTOINE +

avec au final les statistiques suivantes:

% VOIES avec ID_POSTE % VOIES avec CEA_POSTE % NUMEROS avec CEA_POSTE % NUMEROS avec CP_POSTE % VOIES rapprochées POSTE (ID) % VOIES rapprochées POSTE (CEA) % NUMEROS rapprochés POSTE (CEA)
48.80 48.77 68.41 72.85 99.22 99.16 92.68
odorie commented 7 years ago

Il faudrait découper ce ticket en plusieurs sous-tickets en indiquant les points à corriger/améliorer pour y voir plus clair. Et indiquer ce qui acceptable ou non pour la mise en prod.

odorie commented 7 years ago

Des chiffres plus détaillés sur les écarts entre HN BAN et La Poste sont dans le ticket #175

odorie commented 7 years ago

Fermé au profit du ticket https://github.com/BaseAdresseNationale/donnees-initiales/issues/12