miltonvincenttis / xprvry2-CB

0 stars 0 forks source link
Copyright (c) 2024 - Milton Vincenttis

O objetivo é descobrir NLP (Natural Language Processing), processamento de Linguagem Natural.

Vamos nos basear principalmente em Apache OpenNLP e Stanford CoreNLP.

Nota: OpenNLP foi investigado: não tem uma documentação boa, nem exemplos práticos, além de ter pouco apoio da comunidade NLP, ao contrário do CoreNLP que é amplamente utilizado pela comunidade NLP onde a IBM o utiliza no seu produto Cognos.

NLP significa estruturar um texto em uma lingua natural (ingles, portugues, espanhol, chines, etc) que é vista como desestruturada.

Como se estrutura uma linguagem natural?

O NLP utiliza algoritmos para tentar estruturar e entender o texto natural, e assim permitir ao usuário de NLP inferir (descobrir) o que há no texto, e como poder lidar e tirar conclusões sobre o texto.

Algoritmos utilizados no OpenNLP: Todo algoritmo visa definir probabilidades/frequencias de determinado token em alguma posição no texto desestruturado.

Alguns frameworks/bibliotecas de NLP (ApacheNLP, Stanford CoreNLP) implementam as seguintes ferramentas para seu NLP:

Nota: NLP é diferente de LLM (large language models) no sentido do treinamento ser ou não supervisionado. LLM treinamento sem supervisão. NLP treinamento supervisionado.