Open johanricher opened 1 year ago
@johanricher
J'ai une question par raport au champ
{
"name": "donnees_diffusion",
"title": "Perspectives de diffusion",
"description": "Ce jeu de données peut-il être ouvert ? si non, pourquoi ? (Pour plus d'informations, [lire le guide d'Etalab](https://guides.etalab.gouv.fr/juridique/ouverture/).)",
"type": "string"
}
Celui-ci semble être un doublon par rapport au champs : "PUBLICATION_RESTRICTION" qui fait partie du schéma commun depuis https://github.com/etalab/catalogage-donnees/issues/528
Ce champ est un enum qui peut prendre ces valeurs :
class PublicationRestriction(enum.Enum):
DRAFT = "draft" # the dataset is a draft
LEGAL_RESTRICTION = (
"legal_restriction" # the dataset is not published for legal reason
)
NO_RESTRICTION = "no_restriction" # the dataset has no publication restriction
Pour répondre à ce besoin :
La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").
Il faudrait rajouter une colonne publication_restriction
avec la valeur "draft" dans le CSV d'import du catalogue.
@johanricher tu en penses quoi ?
Pour moi ces 2 champs ont un statut différent :
donnees_diffusion
apporte une information sur le jeu de données, présente dans le catalogue si on l'exporte depuis catalogue.data.gouv.fr,PUBLICATION_RESTRICTION
est une information sur la fiche, pas sur le jeu de données, spécifique à catalogue.data.gouv.fr. C'est une métadonnée de la fiche, comme la date de création de la fiche par exemple (on avait appelé ça "catalog record" je crois ?), et donc à ce titre pas présente dans le catalogue exporté. D'un point de vue juridique, le jeu de données (stocké en dehors de catalogue.data.gouv.fr) et la fiche du jeu de données (stocké sur catalogue.data.gouv.fr) sont 2 documents différents.
Un jeu de données peut être indiqué dans le premier champ comme "diffusable" mais pour autant sa fiche sur catalogue.data.gouv.fr n'étant pas achevée, elle peut être configurée avec un niveau restreint.
Ici la DITP considère que les fiches décrivant les jeux de données catalogués ne sont pas achevées et souhaite donc qu'elles ne soient pas diffusées au-delà de son organisation (niveau restreint dans catalogue.data.gouv.fr), indépendamment des perspectives de diffusion des jeux de données catalogués.
Le catalogue du MC a le même champ.
Il faudrait rajouter une colonne publication_restriction avec la valeur "draft" dans le CSV d'import du catalogue.
C'est fait !
c'est bon c'est importé @johanricher
Je ne vois pas le catalogue sur https://catalogue.data.gouv.fr/fiches/search?organization_siret=13002527300017
@johanricher là c'est vraiment bon ... désolé. Mini problème de déploiement
Je ne vois rien :(
Pour mémoire : le catalogue de la DITP comprend pour le moment que des fiches en DRAFT, cela signifie que seules les personnes faisant partie de l'oganisation sont capable de les voir
J'avais oublié ce petit détail... c'est parfait ! J'attends donc une confirmation de la DITP pour fermer le ticket.
Je mettais ce message aussi pour les gens du futur qui devront faire un import ^^
Des essais sont encore en cours. Le schéma va peut-être évoluer à la marge, ce qui nécessitera un réimport du catalogue.
ça va certainement demander du dev pcq je sais pas si le script prévoit le "réimport" ...
Il y a pas de gestion des doublons etc
"Réimport" = supprimer le catalogue DITP en base et refaire un import from scratch exactement avec les mêmes conditions que le premier. La seule chose qui changerait serait un changement du schéma (est-ce que le script doit être adapté pour ça ?) et des lignes en plus dans le fichier a importer.
Contexte
Suite à la création de l'organisation DITP et aux essais menés en interne, on souhaite d'importer leur catalogue afin de valider que l'outil permet de gérer et mettre à jour le catalogue en accord avec les process actuels.
Chaque jeu de données correspond à un indicateur de politique prioritaire du gouvernement qui concerne un ministère.
Le modèle de données de catalogue.data.gouv.fr considère qu'un jeu de données dans le catalogue (une "fiche") est produit par l'organisation qui le catalogue.
Or, la DITP, en tant que direction interministérielle qui instruit le pilotage des politiques prioritaires de l'Etat, catalogue des jeux de données "produits" par d'autres administrations.
On a donc adapté autant que possible le schéma de la DITP (champs complémentaires) pour distinguer les "jeux de données" des "indicateurs" : la DITP est l'organisation qui produit les "jeux de données" catalogués, chacun contenant les données d'un "indicateur" qui concerne une organisation (ministère) en particulier. Les contacts indiqués sont autant que possible associés à l'organisation concernée par l'indicateur.
Données à importer
Un fichier CSV nous a été transmis qui a d'abord été traité, et un schéma spécifique a été créé pour gérer les champs complémentaires.
Le fichier à importer : https://nuage.liiib.re/s/Byj3gxoQjScge7r?path=%2FParties%20prenantes%2FDITP (
ditp_catalogue_valide.csv
)Le schéma, qui spécifie les champs complémentaires : https://github.com/etalab/catalogage-donnees-config/blob/ae82f69dd098f45d44ec3c012bbade3b41f8ae2d/organizations/ditp/catalog_schema.json
Le catalogue précédent créé avec le schéma commun (https://github.com/etalab/catalogage-donnees-config/pull/37) est supprimé.
Infos complémentaires
La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").
Précisions sur certains champs :
freq_maj
) : dans le fichier a importer, le mapping a déjà été fait avec les valeurs telles qu'on les a en base (pas besoin de faire le traitement spécifique qui avait été fait lors de l'import du catalogue MC).,
) sans espace, et doivent être enregistrées en base comme des valeurs séparéesRessources