Quão útil seria uma tabela?

UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.

Other

50 stars 12 forks source link

Ola @ghzeni posso depois te dar uma resposta mais completa mas basicamente:

o spacy aprende a lematizar a partir dos dados. O bosque é pequeno e não tem exemplos suficientes para induzir boas generalizações. Além disso, as anotações não estão 100% livres de inconsistências, mas venho sistematicamente melhorando os dados a cada ano.
Um recurso complementar que mantenho com o @leoalenc é o https://github.com/LR-POR/MorphoBr. Nosso objetivo lá é ter um dicionário morfológico o mais completo possível.
Existem novos corpora para Português no projeto UD entre eles o https://github.com/UniversalDependencies/UD_Portuguese-GSD e outros mais novos, veja página inicial do projeto UD. Se o pessoal do spaCy ainda não treinou modelo com estes outros dados, é possível você mesmo treinar.

UniversalDependencies / UD_Portuguese-Bosque