luizsci42 / Analise-de-sentimentos-pandemia-covid19

Repositório utilizado para o plano de PIBIC 2020-2021 com o prof. Dr. Hendrik Macedo. Tem como finalidade criar um dataset para treinamento de modelos de aprendizado de máquina sobre as 5 emoções de Ekman e analisar os sentimentos predominantes durante os primeiros 12 meses da pandemia de COVID-19.
0 stars 0 forks source link

Treinar um novo modelo com maior desempenho #1

Open luizsci42 opened 1 year ago

luizsci42 commented 1 year ago

Algumas medidas podem ser tomadas para obter um melhor modelo, dentre as quais otimização de parâretros (fine tuning) e/ou testar outro modelo.

Em testes iniciais, consegui obter um weighted f1-score de 58% obtido utilizando cross-validation com 10 folds, a partir de um modelo de logistic regression com parâmetros padrão, sem a necessidade de balancear o conjunto de treinamento. Estou prosseguindo tentando otimizar os parâmetros tanto do LinearSVC, quanto do Logistic Regression.

Outras possíveis medidas também envolvem o pré-processamento do texto, como stemming e lemmatization.

Futuramente, também posso fazer uso do BERT. O seguinte tutorial me parece uma boa introdução: https://www.analyticsvidhya.com/blog/2023/06/step-by-step-bert-implementation-guide/

luizsci42 commented 11 months ago

Para utilizar um modelo baseado em Transformers, devo estudar algumas coisas de Deep Learning e de Processamento de Linguagem Natural. Algumas fontes recomendadas:

https://course.fast.ai/ https://huggingface.co/learn/nlp-course/pt/chapter1/1