furrutiav / data-mining-2022

repository of data-mining-2022 project
http://dim.uchile.cl/~ccarvajal/CC5205/Informe_Hito_3.html
GNU General Public License v3.0
3 stars 1 forks source link
bertweet dataset emoji roberta twitter

Proyecto Minería de Datos

Grupo 1 - Predicción de emojis en tweets

El Dataset

El dataset Multilingual Emoji Prediction (Barbieri et al. 2010, test y trial sets descargables con este link, train set descargable con este otro link) contiene alrededor de 500k tweets, todos conteniendo un emoji, de un conjunto de 20 comúnmente usados. El desafío de base es predecir el emoji en cuestión desde el texto del tweet. Esta tarea puede ser interpretada como una de análisis de sentimiento multimodal puesto a que el emoji comúnmente denota información no verbal del mensaje o contexto, muchas veces emocional.

Barbieri, F., Camacho-Collados, J., Ronzano, F., Espinosa Anke, L., Ballesteros, M., Basile, V., ... & Saggion, H. (2018). Semeval 2018 task 2: Multilingual emoji prediction. In 12th International Workshop on Semantic Evaluation (SemEval 2018) (pp. 24-33). Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/S18-1003

Instalación

Versión de python: 3.8.13

Para clasificador basado en transformers se necesita la librería pytorch. Los comandos de instalación dependen de cada computador y se pueden encontrar en este link.

Para el resto de las bibliotecas ejecutar

pip install -r requirements.txt

Organización

Hito 1

Hito 2

Hito 3

Notebooks

Exploración

Clasificador con Naive Bayes

Clasificador con Transformers (Hito 3):

Resumen clasificadores

Clustering (Hito 3)

Resumen clustering

Análisis con regresiones lineales

Clasificadores version Hashtags

Entregables

Hito 1

Hito 2

Hito 3