Li alguns textos e dependendo ele pode transmitir positividade ou negatividade.
Temos 5514 linhas que foram classificadas como "surprise".
Por ser uma classificação ambigua e com relativamente poucas ocorrências, achei melhor excluir do dataset.
- emoções classificadas em mais de um label
Alguns textos foram classificados com mais de um label e temos um problema quando esses label entram em conflito com a classificão que criamos "positivo"e "negativo".
Temos 9776 linhas classificadas como "positivo"e "negativo". Excluindo-as temos 52266 negativas, 84960 positivas e 55298 neutras.
Por o dataset ainda apresentar o balanceamento ok e a dupla classificação não ser nosso alvo, exclui as linhas classificadas como "positivo"e "negativo".
Checar:
- emoção "surprise"
- emoções classificadas em mais de um label