HaraHeique / TCC-rede-neural-siamesa

Trabalho Conclusão de Curso com a implementação da Rede Neural Siamesa do Campus IFES Serra.
4 stars 0 forks source link

Determinar o valor da variável max_seq_length "ideal" #6

Open HaraHeique opened 4 years ago

HaraHeique commented 4 years ago

Contar as palavras de cada frase do dataset pra ver se a escolha do parâmetro 35 palavras máximas por frase é boa. Provavelmente não será, pois existem frases que devem conter mais de 50 palavras.

HaraHeique commented 4 years ago

Commits com a lógica de obter o tamanho da maior frase no dataframe criado a partir do dataset: 49d5495a1356f477c31a3ec953bc910f6bf0b530

HaraHeique commented 4 years ago

@Fideliszan o gráfico resultante de histograma das frequências do tamanho das palavras.

words-distribution

HaraHeique commented 4 years ago

Fazer os seguintes testes:

HaraHeique commented 4 years ago

sentences-distribution

Baseado no novo histograma irei utilizar max_seq_length:

Percebe-se que não houve muita variação. Porém o estranho que tem uma frase com tamanho 951 após o pré-processamento.

HaraHeique commented 4 years ago

@Fideliszan,