SocialGouv / archifiltre-docs

Visualisez et améliorez vos arborescences de fichiers !
https://archifiltre.fabrique.social.gouv.fr/archifiltre-doc/
Apache License 2.0
45 stars 8 forks source link

Blocage du chargement à l'indexation des fichiers #1660

Open MissionArchivesCDG34 opened 1 month ago

MissionArchivesCDG34 commented 1 month ago

Description du bug

Bonjour,

Je vous contacte pour vous faire part d’un dysfonctionnement qui nous empêche de réaliser l’audit informatique d’une collectivité (nous sommes archivistes dans un centre de gestion).

Nous avons lancé via le prestataire informatique de la collectivité un audit avec Archifiltre (version 4.1.2 puis 4.2) d’un serveur relativement important (490Go, 137 dossiers dès la racine), et ce avec une session possédant les droits d’accès et de lecture à l’ensemble du réseau. Après analyse de 164 350 fichiers, Archifiltre reste bloqué plusieurs heures à 164350 fichiers indexés, et génère un rapport d’erreurs. L’ensemble des 1 675 erreurs sont catégorisées avec un code d’erreur « UNKNOWN » et une description de type « erreur inconnue ou non gérée ». Ceci sur des formats de toutes sortes (dossiers, .pdf , .zip, .docx, .xls, .jpg…) et 1 600 de ces erreurs sont issues de différents .pdf contenus dans un sous-dossier unique. Avec le soutien technique du prestataire informatique de la collectivité nous avons toutefois tenté d’auditer certains dossiers et fichiers individuellement pour vérifier si les erreurs demeuraient ou non. Nous avons alors constaté que les dossiers et fichiers formats .docx audités individuellement ne généraient plus d’erreurs, mais que des descriptions d’erreurs plus précises étaient présentées selon les extensions des fichiers bloquants. Les fichiers .xls génèrent le message suivant : « TypeError: Cannot read properties of undefined (reading 'toLowerCase') », les formats .jpg et .zip : « Error: Invalid Opening Quote: a quote is found inside a field at line 1 ».

Ce problème est-il déjà connu de vos services ? Des correctifs ou palliatifs existent-ils ? Devons-nous découper en plusieurs paquets de dossiers l'audit et se priver de l'identification des doublons ?

Merci de vos conseils qui seront forts utiles :)

Étapes pour reproduire

  1. Sur une machine virtuelle, lancer l'audit du serveur
  2. Attendre le chargement des fichiers et leur indexation

Comportement attendu

No response

Solution

No response

Captures d'écran (si possible)

bug2_sictom bug1_sictom

Liste des caractéristiques de votre machine

Machine virtuelle

Version de l'application

4.1.2 et 4.2.0

Informations complémentaires

No response

sam-pires commented 1 month ago

Bonjour @MissionArchivesCDG34

Merci de nous avoir fait remonter le problème, nous avons bien reçu le mail aussi. Désolé pour le désagrément.

En général les erreurs UNKNOW viennent d'une saturation de la mémoire vive ou de droits d'accès restreints à certains fichiers, sinon il s'agit d'erreurs qui nous sont complètement inconnues. Dans votre cas, d'après les messages que vous avez eu en réalisant des plus petites analyses, il semble que le problème vienne d'une erreur inconnue, qui vient du code d'Archifiltre.

Ce genre d'erreur est difficile pour nous à résoudre car il peut toucher à plusieurs éléments. Nous allons regarder. Avez-vous un rapport d'erreur détaillé sur les plus petites analyses que vous avez lancées ? (j'ai récupéré celui de la première analyse dans votre email)

Je vois 2 choses que l'on peut essayer déjà pour vous débloquer:

Tenez nous au courant de comment cela évolue.

(cc @guillaume971 )

sam-pires commented 1 month ago

related to #1643

MissionArchivesCDG34 commented 1 week ago

Bonjour, après test de la version beta, le logiciel affiche toujours ce message : Error: Invalid Opening Quote: a quote is found inside a field at line 1 test_beta

Nous allons bien sûr essayer avec la version 4.2.1 sortie si le prestataire informatique est toujours motivé