Inist-CNRS / lodex

Linked Open Data EXperiment
https://www.lodex.fr/
Other
54 stars 12 forks source link

Erreur import gros fichiers #2136

Closed camilledesalabert closed 2 months ago

camilledesalabert commented 3 months ago

Décrire le bogue A partir de la version 14.0.40, l'import de gros fichiers (plus de 400 000 lignes) ne s'achève jamais

Testé en versions 14.0.59, 56, 51, 45, 41, 40 et 39.

Reproduire Étapes pour reproduire le comportement :

  1. Sélectionnez le fichier revue de sommaire (ancienne version ici par exemple : revue-sommaire_big_file/revue-sommaire_374321lignes.zip)
  2. Cliquez sur 'importer'

Comportement attendu Import complet du fichier (opérationnel jusqu'à la version 14.0.39)

Captures d'écran erreur-import-rs-lodex14059

Environnement (veuillez compléter les informations suivantes) :

Contexte supplémentaire Ajoutez ici tout autre contexte relatif au problème.

yannguillemin commented 2 months ago

Je confirme, je viens d'essayer avec un csv de de plus de 456 245 lignes (revue de sommaire ISTEX) sur Chrome avec la v14.0.60 et le chargement s'est arrêté à 112 500 lignes avec la même erreur. Aujourd'hui, blocage du chargement à 294 500 lignes. Idem avec la v14.0.61.

AnaelKremer commented 2 months ago

Je vais compléter cette issue plutôt que d'en ouvrir une nouvelle car les problèmes que j'ai rencontré sont sans doute liés.

Pour pallier à ce problème d'import de gros fichiers j'ai segmenté les opérations ou les fichiers à charger et un autre problème apparaît.

Chargement d'un corpus via requetage d'openalex. J'importe un 1er lot de 57 000 notices sans problème. Je veux le compléter avec 50 000 autres notices, tout se déroule bien, on peut voir dans l'instance au cours du chargement que j'ai effectivement plus de 57 000 notices et lorsque l'on arrive à la fin du processus toute les données disparaissent (107 000 donc ) avec le message suivant ! import annulé

Chargement d'un corpus via plusieurs fichiers json-l. 1er upload de 20 000 lignes environ chargé. 2ème upload de 25 000 chargé également. L'instance comporte bien le contenu des 2 fichiers. 3 ème upload de 25 000 aussi le processus va à son terme et au moment où la page se rafraîchit pour normalement afficher le total des 3 fichiers j'ai 0 lignes, instance vide avec toujours le message "l'import a été annulé avec succès"

les logs de l'instance : logsBugsInsbConditor.txt

AnaelKremer commented 2 months ago

Logs d'un 3eme test

Error: ENOENT: no such file or directory, open 'upload/conditor-insb20172022v1_235793460-insb_2020_juinjsonl.1'
2024-09-12T18:39:30: PM2 log: App [lodex:0] exited with code [0] via signal [SIGINT]
2024-09-12T18:39:30: PM2 log: App [lodex:0] starting in -cluster mode-
WARNING (@babel/preset-env): We noticed you're using the `useBuiltIns` option without declaring a core-js version. Currently, we assume version 2.x when no version is passed. Since this default version will likely change in future versions of Babel, we recommend explicitly setting the core-js version you are using via the `corejs` option.
You should also be sure that the version you pass to the `corejs` option matches the version specified in your `package.json`'s `dependencies` section. If it doesn't, you need to run one of the following commands:
  npm install --save core-js@2    npm install --save core-js@3
  yarn add core-js@2              yarn add core-js@3
More info about useBuiltIns: https://babeljs.io/docs/en/babel-preset-env#usebuiltins
More info about core-js: https://babeljs.io/docs/en/babel-preset-env#corejs
WARNING: NODE_APP_INSTANCE value of '0' did not match any instance config file names.
WARNING: See https://github.com/lorenwest/node-config/wiki/Strict-Mode
parmentf commented 2 months ago

Dans le log du 2e test, on a les mêmes erreurs:

 [conditor-insb20172022v1] 2024-09-12T13:19:01.299Z info: /api/parsing {"authorization":"Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VybmFtZSI6ImFkbWluIiwicm9sZSI6ImFkbWluIiwiZXhwIjoxNzI2MTgxMTA4LCJpYXQiOjE3MjYxNDUxMDd9.oeePZXFnwrWNueKnJFaB8DRARc5_95xFAixTXKjfRQo","method":"GET","remoteIP":"::ffff:172.17.1.3","status":200,"timestamp":"2024-09-12T13:19:01.299Z","userAgent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"}
Error: ENOENT: no such file or directory, open 'upload/conditor-insb20172022v1_224675413-insb_2019_juinjsonl.2'
2024-09-12T13:19:06: PM2 log: App name:lodex id:0 disconnected
2024-09-12T13:19:06.236Z ezs Connection closed 1726147083393-939767
2024-09-12T13:19:06: PM2 log: App [lodex:0] exited with code [0] via signal [SIGINT]
2024-09-12T13:19:06: PM2 log: App [lodex:0] starting in -cluster mode-

Y-a-t-il encore assez de place disque sur la machine ?

AnaelKremer commented 2 months ago

114 go libre sur la machine, et sur le container je ne peux pas dire j'ai une page "Maintenance en cours" mais il restait largement assez de place de mémoire

touv commented 2 months ago

Ce problème visiblement fait planter le serveur qui redémarre automatiquement. Du coup pendant le temps du redémarrage, il n'est plus joignable, ce qui pourrait expliquer l'erreur ECONNECT

touv commented 2 months ago

voici une autre erreur image qui semble afficher l'erreur ECONNECT

touv commented 2 months ago

Pour info, en local, l'import de revue de sommaire ne pose aucun pb

touv commented 2 months ago

erreur identifiée image