139bercy / decp-rama

Outil pour agréger et convertir en un seul jeu de données toutes les données essentielles de la commande publique
https://139bercy.github.io/decp-docs/
MIT License
5 stars 3 forks source link

Anomalies dans les données Klekoon #32

Open ColinMaudry opened 4 years ago

ColinMaudry commented 4 years ago

Après téléchargement, les anomalies suivantes ont été repérées dans les données. Elles seront cochées au fur et à mesure de leur résolution par Klekoon ou par un post-traitement :

Toutes ces anomalies sont bloquantes pour l'intégration aux données consolidées.

cc @ungeric-klekoon

ColinMaudry commented 4 years ago

2 316 marchés ont été recensés, pour seulement 57 acheteurs (SIRET) uniques.

ungeric-klekoon commented 4 years ago

Merci pour le retour On va s'occuper des anomalies

ungeric-klekoon commented 4 years ago

Bonjour Mr Maudry,

1. Nous pensons avoir corrigé les quatres problèmes listés. Pouvez-vous re-valider nos données ?

2. Vous pouvez maintenant faire http://data.klekoon.com/api/dcat/all/json ou http://data.klekoon.com/api/dcat/all/xml Ces deux liens permettent d'obtenir les données essentielles des trois derniers jours. (Dites-nous si vous préférez que l'on allonge ou raccourcit le délai par défaut)

Enfin les liens permettant d'avoir toutes les publications sur un intervalle donné http://data.klekoon.com/api/dcat/all/xml/22-02-2020/25-02-2020 http://data.klekoon.com/api/dcat/all/json/22-02-2020/25-02-2020

N'hésitez pas à nous remonter vos commentaires.

Très cordialement

Eric UNG - Klekoon

Le lun. 24 févr. 2020 à 20:57, Colin Maudry notifications@github.com a écrit :

Après téléchargement, les anomalies suivantes ont été repérées dans les données. Elles seront cochées au fur et à mesure de leur résolution par Klekoon ou par un post-traitement :

  • SIRET de titulaires (.titulaires.id) incorrects (trop courts) : voir marchés 2019000018520100, 2020000018997300, mais je pense que tous les marchés sont impactés
  • beaucoup de marchés dont .acheteur.nom est "KLEKOON Compte entreprise". Le SIRET varie un peu, mais je ne trouve que 57 SIRET d'acheteur (.acheteur.id) différents dans l'ensemble des données.
  • certains marchés ont un format de date incorrect : marché 2019000018651000, "08/08/2019 12:07" au lieu de "2019-08-08" (aaaa-mm-jj)
  • valeurs normées incorrectement capitalisées : marché 2019000018651000, "ferme et actualisable" au lieu de "Ferme et actualisable", "marché" au lieu de "Marché", etc.

Toutes ces anomalies sont bloquantes pour l'intégration aux données consolidées.

cc @ungeric-klekoon https://github.com/ungeric-klekoon

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/etalab/decp-rama/issues/32?email_source=notifications&email_token=AOUUDAG6M5S6BTKYVVOJWLTREQRB3A5CNFSM4K2QP652YY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4IP3EASQ, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOUUDAGDZA736NXHUTXI3QLREQRB3ANCNFSM4K2QP65Q .

-- Cordialement

Eric UNG - Chef de projet

Klekoon

ColinMaudry commented 4 years ago

Merci, je vais tester.

Pour les API liées à des dates, vous vous appuyez sur quelle valeur ? dateNotification ? datePublicationDonnees ?

ColinMaudry commented 4 years ago

Lorsque vous retournez plusieurs objets marchés, vous devez utiliser le schéma "paquet" : schéma et exemple.

De façon à avoir un array en vrai JSON :slightly_smiling_face:

ColinMaudry commented 4 years ago

En fait il suffit d'envelopper les données actuelles dans

{
  "marches": [
    ...
  ]
}

Et en séparant les objets marchés avec des virgules, évidemment.

ungeric-klekoon commented 4 years ago

Bonjour

" Pour les API liées à des dates, vous vous appuyez sur quelle valeur ? dateNotification ? datePublicationDonnees ? " Nous utilisons : datePublicationDonnees. Préférez-vous " dateNotification " ?

Pour les autres points, on va s'en occuper.

Eric

Le lun. 2 mars 2020 à 19:31, Colin Maudry notifications@github.com a écrit :

En fait il suffit d'envelopper les données actuelles dans

{

"marches": [

...

]

}

Et en séparent les objets marchés avec des virgules, évidemment.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/etalab/decp-rama/issues/32?email_source=notifications&email_token=AOUUDAB4QT6QMZ3FA3E3KWLRFP3Q7A5CNFSM4K2QP652YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOENQNQNQ#issuecomment-593549366, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOUUDAE7WULIZUSHOQTNCJ3RFP3Q7ANCNFSM4K2QP65Q .

-- Cordialement

Eric UNG - Chef de projet

Klekoon

ungeric-klekoon commented 4 years ago

Bonjour, Nous avons effectuer les corrections (finger crossed). [2020_03_04_114535.zip] (https://github.com/etalab/decp-rama/files/4286871/2020_03_04_114535.zip) N'hésitez pas. Cordialement Eric

ColinMaudry commented 4 years ago

Très bien ! Il ne reste plus qu'à retirer les champs uid, et c'est bon.

Ce sont des champs qui sont alimentés au moment de l'agrégation des différentes sources de données : https://github.com/etalab/decp-rama/blob/master/scripts/package.sh#L21

ungeric-klekoon commented 4 years ago

C'est retiré ! Très cordialement Eric

Le jeu. 5 mars 2020 à 11:05, Colin Maudry notifications@github.com a écrit :

Très bien ! Il ne reste plus qu'à retirer les champs uid, et c'est bon.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/etalab/decp-rama/issues/32?email_source=notifications&email_token=AOUUDAAQNVS3O5NLXFWR22TRF52PRA5CNFSM4K2QP652YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEN4SCYI#issuecomment-595140961, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOUUDAA3NBXEASYFXBE4VZ3RF52PRANCNFSM4K2QP65Q .

-- Cordialement

Eric UNG - Chef de projet

Klekoon

ColinMaudry commented 3 years ago

@ungeric-klekoon Y a t-il une documentation de l'API ? Je ne me souviens plus quelle était la meilleure manière de télécharger les données (http://data.klekoon.com/api/dcat/all/json ne retourne qu'un marché, pas l'ensemble des données). Merci !

ungeric-klekoon commented 3 years ago

Bonjour Mr Maudry,

Voici la documentation :

api/dcat/{format}/{id} ==> Récupère une DE (Données Essentielles) par son ID et un format (Json/XML) api/dcat/all/{format}/{dateDebut}/{dateFin} ==> Récupère les DE sur un intervalle de temps par son format (Json/XML) api/dcat/all/{format} ==> Récupère les 3 dernier jours de DE par son format (Json/XML)

N'hésitez pas à me solliciter

Très cordialement. Eric