Extraction d'information des courriers pour classification automatique

Abeldvlpr commented 6 months ago

En utilisant une librairie type PDF.js, nous pouvons récupérer le contenu textuel d'un courrier lorsqu'il est uploadé sur Weda. Cette librairie permet d'extraire le texte et l'emplacement du texte dans le document.

A l'aide du contenu textuel, nous pouvons extraire les informations suivantes:

Nom et prénom du patient à l'aide de RegEx souples détectants les "Mr", "Mme" et détectant les "né(e) le" qui encadrent souvent le nom du patient.
Date de naissance, souvent précédée de "né(e) le" et au format jj/mm/aaaa
Spécialité du médecin correspondant, par détection de mots clefs dans le texte du courrier
Nom du médecin correspondant, souvent dans la partie basse du document
Date du courrier, souvent localisée dans la partie haute du document

Cette approche par RegEx ou "tâtonnement" est plus du bidouillage qui marchera dans certains cas mais qui nécessite une mise à jour fréquente des règles pour marcher avec beaucoup de documents différents. Elle sert surtout de Proof of Concept, a terme elle devrait être remplacé par un modèle de Machine Learning tournant dans le companion (#104 )

Refhi commented 6 months ago

On pourrait aussi se caller sur le QR code de l'INS : on est censé, à terme, avoir ce truc sur tout les documents potentiellement.

Abeldvlpr commented 6 months ago

Oui, voir même sur le IHE_XDM.zip, joint à de plus en plus de courriers électroniques qui contient toutes les informations concernant le document, le patient, le médecin expéditeur etc.. J'imagine que c'est dans les cartons chez Weda d'utiliser ce fichier à terme

Refhi commented 6 months ago

L'avantage que je vois au QR code c'est qu'il est même présent sur les courriers papiers en théorie. Concernant le IHE_XDM.zip je ne m'y suis pas encore intéressé 🤔 je jette un œil à l'occasion

Jitto31 commented 4 months ago

weda m'avait dit qu'il travaillait sur un classement automatique en 2022 il me semble, donc il y a bien un projet quelque part! Je me posais la question d'ailleurs, weda travail actuellement sur une version modernisé du logiciel, ils comptent intégrer les fonctionnalité de weda helper et compagnon dans le logiciel? Ou les modification du logiciel n'impacteront pas les fonctionnalité de weda helper? Vous en aviez discuté quand vous les aviez rencontré? Que le travail soit pas complétement perdu !

DrFloW71 commented 4 months ago

D'ici que ça bouge je pense qu'un aura vraiment bien profité des fonctionnalités ^^ La dernière fois que j'ai eu WEDA au tel ils m'ont dit avoir discuté avec nos 2 dev pour reprendre des fonctionnalités de Helper en natif. Si Helper leur a au moins montré la nécessité d'implémentation de certaines améliorations c'est déjà un grand succès!

Refhi commented 4 months ago

D'ici que ça bouge je pense qu'un aura vraiment bien profité des fonctionnalités ^^ La dernière fois que j'ai eu WEDA au tel ils m'ont dit avoir discuté avec nos 2 dev pour reprendre des fonctionnalités de Helper en natif. Si Helper leur a au moins montré la nécessité d'implémentation de certaines améliorations c'est déjà un grand succès!

Clairement ^^ Dans le meilleur des mondes Weda-Helper disparaît car Weda en reprend toutes les fonctionnalités :) (et dans l'intervalle ça aura été un projet très sympa, qui semble plaire à pas mal de monde ^^) Cela dit certaines choses sont trop contraintes par le cahier des charges des logiciels médicaux. Je pense qu'on aura toujours un petit quelque chose à rajouter dans certains coins du logiciel.

Jitto31 commented 2 months ago

par curiosité ça avance? Des résultats intéressant? Merci!

Refhi commented 2 weeks ago

@Abeldvlpr pour info j'ai du intégrer pdf-lib pour la manipulation des AM, n'hésite pas à jeter un oeil si ça te parait cohérent pour cette partie également ?

Refhi / Weda-Helper

Extraction d'information des courriers pour classification automatique #103