HaraHeique / TCC-rede-neural-siamesa

Trabalho Conclusão de Curso com a implementação da Rede Neural Siamesa do Campus IFES Serra.
4 stars 0 forks source link

Recriar os datasets de treinamento, validação e teste #27

Open HaraHeique opened 3 years ago

HaraHeique commented 3 years ago
  1. Utilizar a mesma quantidade de frases de cada livro e cada autor, tanto na base de treino quanto na de teste (se possível);
  2. Eliminar dos datasets todas as sentenças que possuam um único token na fase de pré-processamento (depois da remoção de stopwords);
  3. Revisar o dataset e eliminar as palavras estranhas.
HaraHeique commented 3 years ago
  1. Não foi possível colocar a mesma quantidade de sentenças de cada obra para cada autor. Algumas obras devido tanto ao conjunto de normalizações e filtragens aplicadas na etapa de pré-processamento (data_structuring.py) quanto a quantidade de sentenças que possui. Desta forma, toda vez que uma obra possui mais sentenças que a definida ela é reutilizada para pegar as outras sentenças restantes. Em anexo segue o arquivo csv de treinamento e predição com a quantidade de sentenças para cada obra de cada autor literário;

    quantity-sentences-by-works-training.csv quantity-sentences-by-works-prediction.csv

  2. Foi possível retirar as sentenças com tamanho menor ou igual a 1. Agora os datasets criados parecem com sentenças de texto mais coerentes e que fazem mais sentido;

  3. Com a aplicação da etapa 2 (item logo acima) não notei nenhuma sentença/palavra com caracteres estranhos. Lembrando que as palavras com caracteres estanhos podem aparecer devido algum processo de remoção de stopwords ou lematização.