mcavdar / NeuroNER

Named-entity recognition using neural networks. Easy-to-use and state-of-the-art results.
http://neuroner.com
0 stars 0 forks source link

Tokenization problem #3

Open mcavdar opened 6 years ago

mcavdar commented 6 years ago

Spacy models should be modified according medical corpus. For example: tokens['train'][0:10]: [['EMEA', '/', 'H', '/', 'C', '/', '551', 'PRIALT']...

mcavdar commented 6 years ago

A Comparison of 13 Tokenizers on MEDLINE An Analysis of Biomedical Tokenization: Problems and Strategies Tokenization for Biomedical Text

mcavdar commented 6 years ago

The Quaero French Medical Corpus: A Ressource for Medical Entity Recognition and Normalization: "Note that due to time constraints, the documents were supplied to the human annotators without prior tokenization."

Etiquetage morpho-syntaxique en domaine de spécialité: le domaine médical: "Le tokenizer utilisé lors de la première phase d’annotation est un outil maison suivant une segmentation proche de celui du FTB. Il n’est pas adapté au domaine médical, il a été important de modifier la segmentation manuellement afin d’obtenir une annotation morpho-syntaxique de qualité optimale." "Ces observations indiquent qu’avec un tokeniseur adapté, l’utilisation d’une pré-annotation permet un gain de temps significatif"

mcavdar commented 6 years ago

How do I create a custom tokenizer - spaCy

mcavdar commented 6 years ago

https://twitter.com/MKrallinger/status/994409338860027904