megalis-bretagne / opendata-marqueblanche

Outil de réutilisation de données de délibérations inspiré de l'outil Data search engine de Gironde Numérique disponible sur https://gitlab.adullact.net/gironde-numerique/data-search-engine
1 stars 1 forks source link

MARQUE-BLANCHE - Ocerisation #1

Closed lvinsonneau closed 6 months ago

lvinsonneau commented 2 years ago

L'"ocerisation" des délibérations et annexes est-elle fonctionnelle pour la partie "recherche" de la marque-blanche ? Si non, a-t-on une visibilité sur sa date de mise en production ?

yguenneugues commented 2 years ago

@lvinsonneau L'ocerisation des délibérations est mis en place en preproduction, vous pouvez réaliser des tests. L'ajout de l'ocerisation à un fort impact sur la CPU du serveur. ( prévoir un ajout de CPU)

Techniquement nous avons ajouté les libs tesseract-ocr tesseract-ocr-fra imagemagick numpy scikit-image dans l'image docker de apache solr - dockerfile apche solr

lvinsonneau commented 2 years ago

OK @yguenneugues , pour l'ajout de CPU, @spelhate : tu peux peut-être voir avec Fred ?

spelhate commented 2 years ago

Vu avec Frederic. Il nous faut le nom de la VM (Pas sur ce canal) pour créer un ticket côté SIB + maj du DAT avec les caractéristiques de la VM.

lvinsonneau commented 2 years ago

@yguenneugues : je viens de tester l'ocerisation en pré-prod, ça a l'air de super bien marché !!!! @ElodieTessier et @spelhate : vous avez testé ?

spelhate commented 2 years ago

Pas encore testé de mon côté, mais c'est prévu d'ici la fin de semaine.

spelhate commented 2 years ago
ElodieTessier commented 2 years ago

Je regarde ça de suite !

ElodieTessier commented 2 years ago

@yguenneugues @lvinsonneau @spelhate Essais avec : Liberté : 10 Liberte : 0 LIBERTE : 0 LIB : 0 Lib : 0

lvinsonneau commented 2 years ago

Testé avec "gourhant" (du nom d'une signataire d'une délibération full image). Et ça marche !

yguenneugues commented 2 years ago

Le nombre de CPU à ajouter n'est pas évident à définir. On définit "la qualité de l'océrisation" avec un nombre de dpi comme pour un scanner. Plus le nombre de DPI est élevé meilleur sera le résultat de l'océrisation mais on consommera plus de CPU. (exponentielle)

En fonction de nos tests, on devra définir un nombre de DPI qui nous semble acceptable ( actuellement fixé à 300 DPi en preprod) ça consomme pas trop pour un résultat qui me semble correcte.

ElodieTessier commented 2 years ago

Merci @yguenneugues , peux-tu expliciter les notions de CPU et DPI svp ?

lvinsonneau commented 2 years ago

@ElodieTessier : CPU = processeur DPI = dot per inche (point par pouce en français), cela équivaut à la résolution

spelhate commented 2 years ago

Sans entrer dans le détail, :

ElodieTessier commented 2 years ago

@lvinsonneau @spelhate Merci à vous deux, je comprends mieux.

clemoigno commented 2 years ago

Attention ne confondez pas la recherche case sensitive/insensitive comme les cas de test de @spelhate et @ElodieTessier avec le cas de test de l'OCR (comme le test 'gourhant' de @lvinsonneau). Les deux premiers cas, ça n'a rien à voir avec l'OCR. C'est 'juste' des options de la recherche (qu'il faut peut-être régler d'ailleurs mais c'est une autre tâche).

Côté technique dev, la mise en place de l'OCRisation semble fonctionnel mais il faut réfléchir à la mise en oeuvre (puissance nécessaire, reprise de l'existant)

lvinsonneau commented 2 years ago

OK @clemoigno , on attend vos préconisations techniques. Merci.

lvinsonneau commented 2 years ago

@yguenneugues : OK pour test et paramétrage. En attente d'un étude sur les charges CPU nécessaires (action SIB) Puis trancher (Mégalis) en fonction des questions de green-it. Dans un monde idéal, les documents devraient être numérisés en amont.

lvinsonneau commented 6 months ago

Stats sur les documents scannés/non scannés = 2/3 scannés et 1/3 non scannés, sachant que le 1/3 non scannés est censé augmenter, mais le constat fait (cf. TB superset Supervision opendata). Si on mettait en place l'ocerisation, cela impacterait beaucoup le fonctionnement de la plateforme notamment sur l'aspect indexation.

On laisse comme ça pour le moment (sans ocerisation)