Open HaraHeique opened 3 years ago
Ao realizar a tarefa tentei colocar as frases mesmas frases para as três versões (dataset cru, dataset sem SW e dataset sem SW e com lematização). Porém é meio complexo devido a validação de obter somente sentenças com maior que 1 palavra e menor que 150 palavras, o qual teria que modificar o código de forma que ficasse o mais similar possível. No caso a estratégia que utilizei foi diferente disto, onde não embaralhei sentenças de diferentes obras, porém de mesmo autores, como era feito anteriormente, assim não perderia mais tempo que perdi nesta tarefa. Entretanto eu queria continuar a embaralhar as sentenças da forma anterior para tornar o problema mais real e mais coerente.
Para cada versão dos datasets desejados os nomes dos arquivos e seu histograma gerado são os seguintes:
Versões:
Treat Negation Stopwords Differently According to Your NLP Task
OBS.: Lembrar que para cada dataset terá um histograma diferente!