tatchiwiggers / mi-person-legacy

0 stars 0 forks source link

refinando o banco de dados #12

Closed luizarosalba closed 2 years ago

luizarosalba commented 2 years ago

Checar:

- emoção "surprise"

Li alguns textos e dependendo ele pode transmitir positividade ou negatividade.
Temos 5514 linhas que foram classificadas como "surprise".
Por ser uma classificação ambigua e com relativamente poucas ocorrências, achei melhor excluir do dataset.

- emoções classificadas em mais de um label

Alguns textos foram classificados com mais de um label e temos um problema quando esses label entram em conflito com a classificão que criamos "positivo"e "negativo".
Temos 9776 linhas classificadas como "positivo"e "negativo". Excluindo-as temos 52266 negativas, 84960 positivas e 55298 neutras.
Por o dataset ainda apresentar o balanceamento ok e a dupla classificação não ser nosso alvo, exclui as linhas classificadas como "positivo"e "negativo".