Open HaraHeique opened 3 years ago
Não foi possível colocar a mesma quantidade de sentenças de cada obra para cada autor. Algumas obras devido tanto ao conjunto de normalizações e filtragens aplicadas na etapa de pré-processamento (data_structuring.py) quanto a quantidade de sentenças que possui. Desta forma, toda vez que uma obra possui mais sentenças que a definida ela é reutilizada para pegar as outras sentenças restantes. Em anexo segue o arquivo csv de treinamento e predição com a quantidade de sentenças para cada obra de cada autor literário;
quantity-sentences-by-works-training.csv quantity-sentences-by-works-prediction.csv
Foi possível retirar as sentenças com tamanho menor ou igual a 1. Agora os datasets criados parecem com sentenças de texto mais coerentes e que fazem mais sentido;
Com a aplicação da etapa 2 (item logo acima) não notei nenhuma sentença/palavra com caracteres estranhos. Lembrando que as palavras com caracteres estanhos podem aparecer devido algum processo de remoção de stopwords ou lematização.