Refhi / Weda-Helper

Tweak weda for easier day-to-day workflow
GNU General Public License v3.0
5 stars 2 forks source link

Extraction d'information des courriers pour classification automatique #103

Open Abeldvlpr opened 1 month ago

Abeldvlpr commented 1 month ago

En utilisant une librairie type PDF.js, nous pouvons récupérer le contenu textuel d'un courrier lorsqu'il est uploadé sur Weda. Cette librairie permet d'extraire le texte et l'emplacement du texte dans le document.

A l'aide du contenu textuel, nous pouvons extraire les informations suivantes:

Cette approche par RegEx ou "tâtonnement" est plus du bidouillage qui marchera dans certains cas mais qui nécessite une mise à jour fréquente des règles pour marcher avec beaucoup de documents différents. Elle sert surtout de Proof of Concept, a terme elle devrait être remplacé par un modèle de Machine Learning tournant dans le companion (#104 )

Refhi commented 1 month ago

On pourrait aussi se caller sur le QR code de l'INS : on est censé, à terme, avoir ce truc sur tout les documents potentiellement.

Abeldvlpr commented 1 month ago

Oui, voir même sur le IHE_XDM.zip, joint à de plus en plus de courriers électroniques qui contient toutes les informations concernant le document, le patient, le médecin expéditeur etc.. J'imagine que c'est dans les cartons chez Weda d'utiliser ce fichier à terme

Refhi commented 1 month ago

L'avantage que je vois au QR code c'est qu'il est même présent sur les courriers papiers en théorie. Concernant le IHE_XDM.zip je ne m'y suis pas encore intéressé 🤔 je jette un œil à l'occasion