aphp / edsnlp

Modular, fast NLP framework, compatible with Pytorch and spaCy, offering tailored support for French clinical notes.
https://aphp.github.io/edsnlp/
BSD 3-Clause "New" or "Revised" License
116 stars 30 forks source link

Wrong sentence splitting #309

Closed percevalw closed 4 months ago

percevalw commented 4 months ago

Issue from @noecassam

En mettant à jour edsnlp, passant de la version 0.8.1 je crois à la version 0.12.3, je me suis rendu compte que le traitement des spans/sent avait été modifiés. Dans la dernière version de edsnlp, j'ai l'impression que n'importe quel point termine une sent alors que dans la 0.8.1, c'était seulement un point suivi d'un espace qui terminait une sent. Je me suis rendu compte de cela car beaucoup de microorganismes que je dois détecter contiennent un point tels que S.mitis, E.coli etc. Cela me pose problème pour récupérer les dates et toutes les qualifications (negation, hypothesis, family, ...) me semblent être basés sur cette structure en sent.