Open luizsci42 opened 1 year ago
Para utilizar um modelo baseado em Transformers, devo estudar algumas coisas de Deep Learning e de Processamento de Linguagem Natural. Algumas fontes recomendadas:
https://course.fast.ai/ https://huggingface.co/learn/nlp-course/pt/chapter1/1
Algumas medidas podem ser tomadas para obter um melhor modelo, dentre as quais otimização de parâretros (fine tuning) e/ou testar outro modelo.
Em testes iniciais, consegui obter um weighted f1-score de 58% obtido utilizando cross-validation com 10 folds, a partir de um modelo de logistic regression com parâmetros padrão, sem a necessidade de balancear o conjunto de treinamento. Estou prosseguindo tentando otimizar os parâmetros tanto do LinearSVC, quanto do Logistic Regression.
Outras possíveis medidas também envolvem o pré-processamento do texto, como stemming e lemmatization.
Futuramente, também posso fazer uso do BERT. O seguinte tutorial me parece uma boa introdução: https://www.analyticsvidhya.com/blog/2023/06/step-by-step-bert-implementation-guide/