Escolher o número de autores para construção do dataset de treinamento e predição (testes)

HaraHeique commented 3 years ago

A ideia é alterar o código de criação do dataset permitindo que seja determinado o número de autores que serão utilizados no dataset. Foi pensado nisto porque o professor @Fideliszan conjectura que quanto menor o número de autores, que no caso do problema são dois e atualmente utiliza-se três, menos complexo e maior a probabilidade de obtermos melhores resultados com a arquitetura da rede siamesa atual. Logo tem-se a possibilidade de melhorar ou resultados ou não.

HaraHeique commented 3 years ago

Todo o código fonte foi implementado na branch feature/criacao-dataset-n-autores. Ao executar a aplicação e escolher o item de estruturação de dados será pedido para informar a quantidade de autores que se deseja extrair as frases. Neste caso será testado com 2 autores.

HaraHeique commented 3 years ago

@Fideliszan

Realizando os processos de treinamento sem configuração da rede, como mostrado na figura abaixo.

Com somente dois autores os resultados não tiveram praticamente nenhuma mudança. Lembrando que todos os testes foram feitos usando a medida de similaridade Manhattan e o word embedding do w2v Google News com partição 70/30 dos dados.

Dataset cru

WhatsApp Image 2021-07-27 at 21 02 33

Dataset sem stopwords

WhatsApp Image 2021-07-27 at 21 03 09

Dataset sem stopwords e lematizado

WhatsApp Image 2021-07-27 at 21 03 57

Com configuração da rede

Os resultados com a configuração da rede a partir dos resultados obtidos do hyperas para uma biLSTM.

Dataset cru (max_seq_length = 17)

biLSTM-Manhattan-raw

Dataset sem stopwords (max_seq_length = 9)

history-graph-27_07_2021-22_56_48-WORD2VEC_GOOGLE_NEWS-LSTM-MANHATTAN-70-30-10-9

Dataset sem stopwords e lematizado (max_seq_length = 9)

history-graph-27_07_2021-23_30_01-WORD2VEC_GOOGLE_NEWS-LSTM-MANHATTAN-70-30-10-9

@Fideliszan perceba que as curvas de treinamento e validação para os datasets sem stopwords e sem stopwords + lematização tiver um comportamento menos constante que o dataset cru. Acredito que isto é porque os hiperparâmetros configurados na rede biLSTM utilizada que foram obtidos do hyperas foram baseados no dataset cru. Logo sendo necessário realizar o mesmo processo de otimização de hiperparâmetros para os datasets sem stopwords e sem stopwords + lematização.

HaraHeique / TCC-rede-neural-siamesa