explosion / spaCy

💫 Industrial-strength Natural Language Processing (NLP) in Python
https://spacy.io
MIT License
30.34k stars 4.41k forks source link

Italian tagger and lemmatizer performance dropped with the new v3.4 version #11298

Open databill86 opened 2 years ago

databill86 commented 2 years ago

Hello,

I've recently upgraded the spaCy pretrained models from v3.2 to 3.4, but I found that the tagger and lemmatizer performance dropped significantly for italian and spanish.

I've prepared a table to show some examples for italian, along with the expected output (lemma, POS)

Text Word analysed Lemma detected Lemma expected Pos detected Pos expected
efficiente e cortesissima. cortesissima cortesissima cortese ADJ ADJ
"Voglio disabbonarmi Newsletter
Non voglio che mi mandate le vostre email" Voglio Voglio volere PRON VERB
"Il tracking dell' ordine
non è ancora arrivato ed inoltre non riesco a tracciarlo. " tracciarlo tracciare lo tracciare VERB VERB
Potete Potete potere AUX VERB
Negozio pulito e ben fornito Cassiera gentile Cassiera Cassiera cassiere PROPN NOUN
Ho il buono bebe come posso utilizzarlo ed entro quando? come come come ADP ADV
posso potere potere AUX VERB
utilizzarlo utilizzare lo utilizzare VERB VERB
"I: Il tuo ordine è ancora disponibile
Spedizione gratis" Spedizione Spedizione spedizione NOUN NOUN
gratis gratis gratis ADV ADJ
Aprite altri centri Kiabi verso il centro di [city].. Aprite Aprite aprire VERB VERB
altri altro altro DET ADJ
che ora chiudete che che che PRON DET
chiudete chiudetere chiudere VERB VERB
Negozi in provincia di [city]? Negozi Negozi negozio NOUN NOUN
Staff gentilissimo e disponibile. gentilissimo gentilo gentile ADJ ADJ
Perfette Perfette Perfetta perfetto NOUN ADJ
Trovo sempre un sacco di cose per mio figlio e i prezzi sono rimasti gli stessi Trovo Trovare trovare VERB VERB
Richiedo la fatturazione elettronica dei seguenti ordini N° [number] N° [number] [name] Bevande Richiedo Richiedo richiedere VERB VERB
Cercavo una felpina nuova collezione e già non avevano più neanche una Cercavo Cercavo cercare VERB VERB
Consegna più veloce del previsto e vestiti neonato stupendi e di buona qualità Consegna consegnare consegna VERB NOUN
previsto prevedere previsto NOUN NOUN
neonato neonare neonato VERB NOUN

Some lemma are in uppercase, is there any reason that explains it ?

Thank you!

Your Environment

adrianeboyd commented 2 years ago

The output for Spanish v3.2.0-v3.4.0 pipelines should be very similar, since those pipelines are using the same rule-based lemmatizer and relatively similar settings otherwise. Open a separate issue if there are additional problems for Spanish?

Thanks for the feedback about Italian, this is related to #10953, which also includes some additional Italian examples: https://github.com/explosion/spaCy/issues/10953#issuecomment-1201328111

For v3.3.0 we mainly switched lookup lemmatizers to the new trainable lemmatizer, but the trainable lemmatizer will make very different kinds of mistakes than the lookup lemmatizer, which boil down to the expectations for statistical components as described in #3052.

If you want to switch back to the v3.3 lookup lemmatizer: https://spacy.io/usage/v3-3#pipeline-updates, https://spacy.io/models#design-modify

databill86 commented 2 years ago

Thank you for your response! I will switch back to the v3.3 lookup lemmatizer and I will open a new issue for the Spanish examples, I may also have some other examples for French.