etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
184 stars 28 forks source link

État des doublons de datagouv_id (ressources) #4022

Open thbar opened 1 week ago

thbar commented 1 week ago

Sujet qui date, mais qui revient en bossant sur #3640 (car identifier une ressource de façon unique est nécessaire).

Si on compte les ressources, on en a actuellement 1147:

SELECT count(*) FROM resource

Toutefois si on compte les datagouv_id des ressources, on est à 1140:

SELECT count(distinct(datagouv_id)) FROM resource

Et les "doublons/triplons" sont:

SELECT
    datagouv_id,
    count(*) AS resource_count
FROM
    resource
GROUP BY
    datagouv_id
HAVING
    count(*) > 1

Résultat:

datagouv_id resource_count
e5cde43d-b57b-475a-ba7f-f5ea23cc4e65 2
28a42d49-e9a8-4c6c-a999-b2b7ea8ce977 2
d9175b28-b4e4-4a19-8504-a4c02220b226 2
ec23d4d9-2347-4f96-9674-163d628d6729 2
a33d3831-8dd0-4a60-95df-66b9b8f3d86d 3
824c3fc5-7631-4147-990a-3621e2786093 2

Je crée ce ticket pour y faire référence dans du code qui a besoin d'identifier les ressources (et ne pourra donc pas utiliser datagouv_id du fait de ces doublons, sauf à ce qu'on les fasse disparaître pour de bon).

Issues en lien