Open HaraHeique opened 3 years ago
Todo o código fonte foi implementado na branch feature/criacao-dataset-n-autores. Ao executar a aplicação e escolher o item de estruturação de dados será pedido para informar a quantidade de autores que se deseja extrair as frases. Neste caso será testado com 2 autores.
@Fideliszan
Realizando os processos de treinamento sem configuração da rede, como mostrado na figura abaixo.
Com somente dois autores os resultados não tiveram praticamente nenhuma mudança. Lembrando que todos os testes foram feitos usando a medida de similaridade Manhattan e o word embedding do w2v Google News com partição 70/30 dos dados.
Os resultados com a configuração da rede a partir dos resultados obtidos do hyperas para uma biLSTM.
@Fideliszan perceba que as curvas de treinamento e validação para os datasets sem stopwords e sem stopwords + lematização tiver um comportamento menos constante que o dataset cru. Acredito que isto é porque os hiperparâmetros configurados na rede biLSTM utilizada que foram obtidos do hyperas foram baseados no dataset cru. Logo sendo necessário realizar o mesmo processo de otimização de hiperparâmetros para os datasets sem stopwords e sem stopwords + lematização.
A ideia é alterar o código de criação do dataset permitindo que seja determinado o número de autores que serão utilizados no dataset. Foi pensado nisto porque o professor @Fideliszan conjectura que quanto menor o número de autores, que no caso do problema são dois e atualmente utiliza-se três, menos complexo e maior a probabilidade de obtermos melhores resultados com a arquitetura da rede siamesa atual. Logo tem-se a possibilidade de melhorar ou resultados ou não.