etalab / catalogage-donnees

Outil de catalogage de données développé par Etalab (service en production sur catalogue.data.gouv.fr)
https://catalogue.data.gouv.fr
GNU Affero General Public License v3.0
14 stars 3 forks source link

Importer le catalogue de la DITP #598

Open johanricher opened 1 year ago

johanricher commented 1 year ago

Contexte

Suite à la création de l'organisation DITP et aux essais menés en interne, on souhaite d'importer leur catalogue afin de valider que l'outil permet de gérer et mettre à jour le catalogue en accord avec les process actuels.

Chaque jeu de données correspond à un indicateur de politique prioritaire du gouvernement qui concerne un ministère.

Le modèle de données de catalogue.data.gouv.fr considère qu'un jeu de données dans le catalogue (une "fiche") est produit par l'organisation qui le catalogue.

Or, la DITP, en tant que direction interministérielle qui instruit le pilotage des politiques prioritaires de l'Etat, catalogue des jeux de données "produits" par d'autres administrations.

On a donc adapté autant que possible le schéma de la DITP (champs complémentaires) pour distinguer les "jeux de données" des "indicateurs" : la DITP est l'organisation qui produit les "jeux de données" catalogués, chacun contenant les données d'un "indicateur" qui concerne une organisation (ministère) en particulier. Les contacts indiqués sont autant que possible associés à l'organisation concernée par l'indicateur.

Données à importer

Un fichier CSV nous a été transmis qui a d'abord été traité, et un schéma spécifique a été créé pour gérer les champs complémentaires.

Le fichier à importer : https://nuage.liiib.re/s/Byj3gxoQjScge7r?path=%2FParties%20prenantes%2FDITP (ditp_catalogue_valide.csv)

Le schéma, qui spécifie les champs complémentaires : https://github.com/etalab/catalogage-donnees-config/blob/ae82f69dd098f45d44ec3c012bbade3b41f8ae2d/organizations/ditp/catalog_schema.json

Le catalogue précédent créé avec le schéma commun (https://github.com/etalab/catalogage-donnees-config/pull/37) est supprimé.

Infos complémentaires

La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").

Précisions sur certains champs :

Ressources

Volubyl commented 1 year ago

@johanricher

J'ai une question par raport au champ

  {
      "name": "donnees_diffusion",
      "title": "Perspectives de diffusion",
      "description": "Ce jeu de données peut-il être ouvert ? si non, pourquoi ? (Pour plus d'informations, [lire le guide d'Etalab](https://guides.etalab.gouv.fr/juridique/ouverture/).)",
      "type": "string"
    }

Celui-ci semble être un doublon par rapport au champs : "PUBLICATION_RESTRICTION" qui fait partie du schéma commun depuis https://github.com/etalab/catalogage-donnees/issues/528

Ce champ est un enum qui peut prendre ces valeurs :

class PublicationRestriction(enum.Enum):
    DRAFT = "draft"  # the dataset is a draft
    LEGAL_RESTRICTION = (
        "legal_restriction"  # the dataset is not published for legal reason
    )
    NO_RESTRICTION = "no_restriction"  # the dataset has no publication restriction

Pour répondre à ce besoin :

La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").

Il faudrait rajouter une colonne publication_restriction avec la valeur "draft" dans le CSV d'import du catalogue.

Suggestions:

@johanricher tu en penses quoi ?

johanricher commented 1 year ago

Pour moi ces 2 champs ont un statut différent :

D'un point de vue juridique, le jeu de données (stocké en dehors de catalogue.data.gouv.fr) et la fiche du jeu de données (stocké sur catalogue.data.gouv.fr) sont 2 documents différents.

Un jeu de données peut être indiqué dans le premier champ comme "diffusable" mais pour autant sa fiche sur catalogue.data.gouv.fr n'étant pas achevée, elle peut être configurée avec un niveau restreint.

Ici la DITP considère que les fiches décrivant les jeux de données catalogués ne sont pas achevées et souhaite donc qu'elles ne soient pas diffusées au-delà de son organisation (niveau restreint dans catalogue.data.gouv.fr), indépendamment des perspectives de diffusion des jeux de données catalogués.

Le catalogue du MC a le même champ.

Il faudrait rajouter une colonne publication_restriction avec la valeur "draft" dans le CSV d'import du catalogue.

C'est fait !

Volubyl commented 1 year ago

c'est bon c'est importé @johanricher

johanricher commented 1 year ago

Je ne vois pas le catalogue sur https://catalogue.data.gouv.fr/fiches/search?organization_siret=13002527300017

Volubyl commented 1 year ago

@johanricher là c'est vraiment bon ... désolé. Mini problème de déploiement

johanricher commented 1 year ago

Je ne vois rien :(

Volubyl commented 1 year ago

Pour mémoire : le catalogue de la DITP comprend pour le moment que des fiches en DRAFT, cela signifie que seules les personnes faisant partie de l'oganisation sont capable de les voir

johanricher commented 1 year ago

J'avais oublié ce petit détail... c'est parfait ! J'attends donc une confirmation de la DITP pour fermer le ticket.

Volubyl commented 1 year ago

Je mettais ce message aussi pour les gens du futur qui devront faire un import ^^

johanricher commented 1 year ago

Des essais sont encore en cours. Le schéma va peut-être évoluer à la marge, ce qui nécessitera un réimport du catalogue.

Volubyl commented 1 year ago

ça va certainement demander du dev pcq je sais pas si le script prévoit le "réimport" ...

Il y a pas de gestion des doublons etc

johanricher commented 1 year ago

"Réimport" = supprimer le catalogue DITP en base et refaire un import from scratch exactement avec les mêmes conditions que le premier. La seule chose qui changerait serait un changement du schéma (est-ce que le script doit être adapté pour ça ?) et des lignes en plus dans le fichier a importer.