Open mcavdar opened 6 years ago
The Quaero French Medical Corpus: A Ressource for Medical Entity Recognition and Normalization: "Note that due to time constraints, the documents were supplied to the human annotators without prior tokenization."
Etiquetage morpho-syntaxique en domaine de spécialité: le domaine médical: "Le tokenizer utilisé lors de la première phase d’annotation est un outil maison suivant une segmentation proche de celui du FTB. Il n’est pas adapté au domaine médical, il a été important de modifier la segmentation manuellement afin d’obtenir une annotation morpho-syntaxique de qualité optimale." "Ces observations indiquent qu’avec un tokeniseur adapté, l’utilisation d’une pré-annotation permet un gain de temps significatif"
Spacy models should be modified according medical corpus. For example:
tokens['train'][0:10]: [['EMEA', '/', 'H', '/', 'C', '/', '551', 'PRIALT']...