Open Reissel opened 1 year ago
A primeira tentativa de algoritmo usando somente o NLTK não forneceu bons resultados, a biblioteca não funciona bem para a língua portuguesa e tem dificuldades em reconhecer nomes próprios brasileiros: https://github.com/Reissel/qdrec/blob/feat/nltk-names-recognition/scripts/nltk_recognitioner.py
Tentou-se usar uma lista de nomes pré-existentes em conjunto com o NLTK, a biblioteca NLTK separava os tokens e buscava a palavra nessa lista de nomes, foi possível obter melhores resultados, mas ainda ficou falha pois os nomes não eram separados por pessoa corretamente devido à limitação do algoritmo de saber separar um nome de outro. https://github.com/Reissel/qdrec/blob/feat/nltk-names-recognition/scripts/names_processor.py
No último estudo realizado, foi encontrada uma nova alternativa, Named Entity Recognition (NER), que faz uso de aprendizado de máquina para processamento de linguagem natural através do framework Bidirectional Encoder Representations from Transformers (BERT), onde Transformers é um modelo de deep learning. Esse novo algoritmo forneceu resultados ótimos para a busca de nomes de pessoas físicas. https://github.com/Reissel/qdrec/blob/feat/adding_bert_ner_processor/scripts/bert_ner_processor.py
Deve-se criar um algoritmo capaz de fazer o reconhecimento de nomes de pessoas físicas de modo a conseguir atrelar a entrada do Diário Oficial aos nomes de pessoas que aparecem nele.