roquegv / spanishNLPModelCorpus

Corpus y modelos entrenados para NLP en Español
2 stars 2 forks source link

Corpus y modelos entrenados para NLP en Español

Se han creado clasificadores para las siguientes tareas NLP:

Para obtener estos modelos se han utilizado y modificado los siguientes corpus:

Evaluaciones

Segmentación de Oraciones:

CoNLL-A CoNLL-B
Precision 0.9762 0.9865
Recall 0.9541 0.9763
F-Measure 0.9650 0.9814

Tokenización:

CoNLL-A CoNLL-B
Precision 0.9953 0.9945
Recall 0.9977 0.9973
F-Measure 0.9965 0.9959

POS Tagging:

Cantidad Oraciones 4060
Tamaño mínimo de oraciones 2
Tamaño máximo de oraciones 105
Tamaño promedio de oraciones 26,81
Cantidad de etiquetas 320
Exactitud 95,09%

Named Entity Recognition:

Corpus de Evaluación F-Measure
AnCora 0.9731
WikiNER 0.8408
CoNLL-A 0.7672
CoNLL-B 0.7998