UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

Quão útil seria uma tabela? #414

Open ghzeni opened 10 months ago

ghzeni commented 10 months ago

Boa tarde, pessoal! Estou com uma dúvida.

Estou usando o spaCy pra fazer lematização em um projeto e me deparei com o spaCy, que faz uso desse modelo. Tentamos usar ele pra lematizar (pelo spaCy) algumas palavras no diminutivo e me dei conta de que não estava funcionando muito bem.

Hoje, se fosse se tratar de melhorias pro português brasileiro, qual seria ela? Quais seriam os próximos passos?

Eu sou bem leigo em NLP no geral, a primeira coisa que veio na cabeça foi "criar uma tabela cuja primeira coluna é a palavra em sua forma 'base' e as outras, suas variações."

arademaker commented 10 months ago

Ola @ghzeni posso depois te dar uma resposta mais completa mas basicamente:

  1. o spacy aprende a lematizar a partir dos dados. O bosque é pequeno e não tem exemplos suficientes para induzir boas generalizações. Além disso, as anotações não estão 100% livres de inconsistências, mas venho sistematicamente melhorando os dados a cada ano.

  2. Um recurso complementar que mantenho com o @leoalenc é o https://github.com/LR-POR/MorphoBr. Nosso objetivo lá é ter um dicionário morfológico o mais completo possível.

  3. Existem novos corpora para Português no projeto UD entre eles o https://github.com/UniversalDependencies/UD_Portuguese-GSD e outros mais novos, veja página inicial do projeto UD. Se o pessoal do spaCy ainda não treinou modelo com estes outros dados, é possível você mesmo treinar.