mission-apprentissage / referentiel

GNU Affero General Public License v3.0
3 stars 1 forks source link

URGENT - PB dans la récupération des données (catalogue apprentissage / Liste publique des OF ? #186

Closed FlavieSauvebois closed 6 months ago

FlavieSauvebois commented 7 months ago

Suite à des signalements utilisateurs je constate que nous avons, à priori, des problèmes dans la récupération de certaines données.

-Tout d'abord, côté Catalogue de l'Apprentissage - De nombreux OF sont présents dans le catalogue avec de l'offre de formation - ils devraient donc remontés dans le Référentiel - mais ce n'est pas la cas Voici qq exemples : 33986696400051 / 91487364100023 / 82409268800251 / 82422814201197 / 82422814201189

En parallèle, je vais faire un mail à Adeline (RCO) pour voir si des changements sont intervenus de leur côté et qui pourraient être à l'origine de nos problèmes.

gasilber commented 6 months ago

L'importation a un problème au niveau de la Liste Publique des Organismes de Formation de la DGEFP:

[2024-03-25T05:00:04.322Z][INFO][import] Import de la Liste Publique des Organismes de Formation...
[2024-03-25T05:00:11.181Z][ERROR][script] Invalid Record Length: columns length is 31, got 25 on line 1762
Error: Invalid Record Length: columns length is 31, got 25 on line 1762
    at Parser.__onRecord (/app/node_modules/csv-parse/dist/cjs/index.cjs:924:9)
    at Parser.__parse (/app/node_modules/csv-parse/dist/cjs/index.cjs:804:38)
    at Parser._transform (/app/node_modules/csv-parse/dist/cjs/index.cjs:610:22)
    at Transform._write (node:internal/streams/transform:175:8)
    at doWrite (node:internal/streams/writable:411:12)
    at clearBuffer (node:internal/streams/writable:572:7)
    at onwrite (node:internal/streams/writable:464:7)
    at Transform._read (node:internal/streams/transform:201:5)
    at Readable.read (node:internal/streams/readable:539:12)
    at flow (node:internal/streams/readable:1064:34)
{ err: {} }
gasilber commented 6 months ago

Egalement un problème sur la suite, lors de la phase de collecte sirene:

[2024-03-25T10:39:07.385Z][WARN][collect] Erreur lors de la collecte pour l'organisme 30540504502336. { source: 'sirene' }
{
  anomalies: [
    {
      key: 'adresse_ZA LA ROUGEMARE 27930 FAUVILLE',
      type: 'etablissement_geoloc_impossible',
      details: "Score 0.4060671428571428 trop faible pour l'adresse ZA LA ROUGEMARE 27930 FAUVILLE (lon:1.196457,lat:49.031116)"
    }
  ]
}
[2024-03-25T10:39:18.855Z][ERROR][script] aborted
Error: aborted
    at connResetException (node:internal/errors:720:14)
    at TLSSocket.socketCloseListener (node:_http_client:461:19)
    at TLSSocket.emit (node:events:529:35)
    at node:net:350:12
    at TCP.done (node:_tls_wrap:657:7)
{ err: {} }
[2024-03-25T10:39:19.143Z][WARN][collect] Erreur lors de la collecte pour l'organisme 30540504500017. { source: 'sirene' }
{
  anomalies: [
    MongoNotConnectedError: MongoClient must be connected to perform this operation
        at getTopology (/app/node_modules/mongodb/lib/utils.js:282:11)
        at /app/node_modules/mongodb/lib/operations/execute_operation.js:19:48
        at maybePromise (/app/node_modules/mongodb/lib/utils.js:409:5)
        at executeOperation (/app/node_modules/mongodb/lib/operations/execute_operation.js:16:37)
        at Collection.updateOne (/app/node_modules/mongodb/lib/collection.js:169:57)
        at markOrganismeAsCollected (/app/src/jobs/collectSources.js:21:37)
        at /app/src/jobs/collectSources.js:225:17
        at process.processTicksAndRejections (node:internal/process/task_queues:95:5)
        at async ParallelWrite._onWrite (/app/node_modules/oleoduc/lib/writeData.js:99:19) {
      [Symbol(errorLabels)]: Set(0) {}
    }
  ]
}
gasilber commented 6 months ago

Les données de la Liste publique des Organismes de Formation en apprentissage de la DGEFP ont une mauvaise structure. Dans le CSV, certaines lignes ont 25 champs au lieu de 31. L'entrepôt de données ONISEP "répare" ce CSV: on se branche donc directement dessus pour récupérer les données DGEFP.

gasilber commented 6 months ago

Normalement, l'importation se déroule à nouveau correctement:

bash /opt/referentiel/cli.sh importDatagouv
****************************
[2024-03-26_185201] Running /opt/referentiel/cli.sh importDatagouv
****************************
[2024-03-26T17:52:03.204Z][INFO][import] Import de la Liste Publique des Organismes de Formation...
[2024-03-26T17:54:06.920Z][INFO][script] {
  "total": 124779,
  "created": 1829,
  "updated": 34751,
  "failed": 0
}
[2024-03-26T17:54:06.921Z][INFO][script] Completed in 2m 4.2s