Criar 3 versões de dataset tanto para treinamento quanto para predição

Ao realizar a tarefa tentei colocar as frases mesmas frases para as três versões (dataset cru, dataset sem SW e dataset sem SW e com lematização). Porém é meio complexo devido a validação de obter somente sentenças com maior que 1 palavra e menor que 150 palavras, o qual teria que modificar o código de forma que ficasse o mais similar possível. No caso a estratégia que utilizei foi diferente disto, onde não embaralhei sentenças de diferentes obras, porém de mesmo autores, como era feito anteriormente, assim não perderia mais tempo que perdi nesta tarefa. Entretanto eu queria continuar a embaralhar as sentenças da forma anterior para tornar o problema mais real e mais coerente.

Para cada versão dos datasets desejados os nomes dos arquivos e seu histograma gerado são os seguintes:

Datasets limpos (sem lematização e sem remoção de SW):
- Treinamento: training-sentences-raw.csv
- Predição: prediction-sentences-raw.csv

sentences-distribution-raw

Datasets com remoção de SW:
- Treinamento: training-sentences-sw.csv
- Predição: prediction-sentences-sw.csv

sentences-distribution-sw

Datasets com remoção de SW e lematização:
- Treinamento: training-sentences-sw-lemmatization.csv
- Predição: prediction-sentences-sw-lemmatization.csv

sentences-distribution-sw-lemmatization

HaraHeique / TCC-rede-neural-siamesa

Criar 3 versões de dataset tanto para treinamento quanto para predição #34