Inconsistent lemmatization

pablodms / spacy-spanish-lemmatizer

Spanish rule-based lemmatization for spaCy

MIT License

37 stars 6 forks source link

With the PRON - VERB structure it works:

In [106]: texto = "Yo compro manzanas"                                                                                                      
In [107]: doc = nlp(texto)                                                                                                                  
In [109]: for k in doc:  
     ...:     print(k.text, k.pos_, k.lemma_)  

Yo PRON yo
compro VERB comprar
manzanas ADJ manzanas

But not with a VERB + ADJ structure

In [113]: texto = "compro manzanas"                                                                                                         

In [114]: doc = nlp(texto)                                                                                                                  

In [115]: for k in doc:  
     ...:     print(k.text, k.pos_, k.lemma_)  
     ...:                                                                                                                                   
compro PROPN compro
manzanas ADJ manzanas

It fails with a more complex structure too:

In [110]: texto = "Yo compro manzanas, pero a veces compro peras"                                                                           
In [111]: doc = nlp(texto)                                                                                                                  
In [112]: for k in doc:  
     ...:     print(k.text, k.pos_, k.lemma_)  
     ...:                                                                                                                                   
Yo PRON yo
compro PROPN compro
manzanas ADJ manzanas
, PUNCT ,
pero CONJ pero
a ADP a
veces NOUN vez
compro NOUN compro
peras ADJ peras

Have you tested it?

pablodms / spacy-spanish-lemmatizer

Inconsistent lemmatization #1