ResidenciaTICBrisa / BP-Classificador-de-Propostas

Aplicação de Indexação Automática com ML das propostas publicadas no Brasil Participativo
https://residenciaticbrisa.github.io/BP-Classificador-de-Propostas/
2 stars 1 forks source link

Testar modelos few-shot #33

Closed Leanddro13 closed 1 year ago

Leanddro13 commented 1 year ago

Descrição

Após estudar os modelos de few-shot, implementar eles.

Tarefas

Critérios de Aceitação

LexTOliver commented 1 year ago

Alguns estudos separados para leitura e compreensão do tema "Few-Shot Text Classification" e formas de implementação:

LexTOliver commented 1 year ago

Alguns algoritmos para testar:

Dos artigos acima:

Dos artigos da issue passada:

LexTOliver commented 1 year ago

A maioria dos modelos encontrados ainda estavam em estágio de pesquisa e exploração da task few-shot. Nominalmente, existem poucos modelos marcantes conhecidos que podem ser reproduzidos. Dentre eles: redes prototípicas, redes siamesas, SetFit e pequenas variantes das mesmas com otimizações. Todos baseando-se nos conceitos de codificação do texto em embeddings e classificação através da similaridade por cosseno.

LexTOliver commented 1 year ago

Dentre os modelos mais conhecidos, ainda existem pouca documentação e implementação disponível para reproducibilidade, o que necessitou uma estudo mais aprofundado dos seus conceitos e técnicas e atrasou um pouco o cronograma de entrega das issues.

LexTOliver commented 1 year ago

O melhor modelo que foi selecionado para foco e teste foi o SetFit, disponível em versão early no Pypi com uma documentação satisfatória e vídeos tutoriais explicando sua implementação e uso.

LexTOliver commented 1 year ago

Os testes do SetFit se encontram no Colab. O uso do Colab tornou-se necessário para treinamento do modelo em GPU, otimização o tempo gasto.

LexTOliver commented 1 year ago

Não foi necessário a criação de uma branch e o código do algoritmo testado está registrado na issue.