HaraHeique / TCC-rede-neural-siamesa

Trabalho Conclusão de Curso com a implementação da Rede Neural Siamesa do Campus IFES Serra.
4 stars 0 forks source link

Criar 3 versões de dataset tanto para treinamento quanto para predição #34

Open HaraHeique opened 3 years ago

HaraHeique commented 3 years ago

Versões:

  1. Datasets limpos (sem lematização e sem remoção de SW);
  2. Datasets com remoção de SW;
  3. Datasets com remoção de SW e lematização (ambos usando NLTK como é feito atualmente).

Treat Negation Stopwords Differently According to Your NLP Task

OBS.: Lembrar que para cada dataset terá um histograma diferente!

HaraHeique commented 3 years ago

Ao realizar a tarefa tentei colocar as frases mesmas frases para as três versões (dataset cru, dataset sem SW e dataset sem SW e com lematização). Porém é meio complexo devido a validação de obter somente sentenças com maior que 1 palavra e menor que 150 palavras, o qual teria que modificar o código de forma que ficasse o mais similar possível. No caso a estratégia que utilizei foi diferente disto, onde não embaralhei sentenças de diferentes obras, porém de mesmo autores, como era feito anteriormente, assim não perderia mais tempo que perdi nesta tarefa. Entretanto eu queria continuar a embaralhar as sentenças da forma anterior para tornar o problema mais real e mais coerente.

Para cada versão dos datasets desejados os nomes dos arquivos e seu histograma gerado são os seguintes:

  1. Datasets limpos (sem lematização e sem remoção de SW):
    • Treinamento: training-sentences-raw.csv
    • Predição: prediction-sentences-raw.csv

sentences-distribution-raw

  1. Datasets com remoção de SW:
    • Treinamento: training-sentences-sw.csv
    • Predição: prediction-sentences-sw.csv

sentences-distribution-sw

  1. Datasets com remoção de SW e lematização:
    • Treinamento: training-sentences-sw-lemmatization.csv
    • Predição: prediction-sentences-sw-lemmatization.csv

sentences-distribution-sw-lemmatization