Open Fideliszan opened 3 years ago
Os resultados de acurácia em geral estão dando em média (com 50 epochs):
O dataset eu criei dois diferentes, onde um foi o combinado de 72000 linhas (36K de similaridade 1 e 36K similaridade 0). Mas também criei outro dataset que possui 10800 linhas (36K de similaridade 1 e 72K de similaridade 0), onde este segundo contem todas os registros de comparação entre os 3 autores, dado que o de 72K linhas não é possível utilizar todos os registros.
Lembrando que todos os testes foram utilizando o loss mse e otimizador Adam padrão do tensorflow. Conclui-se que realmente melhorou consideravelmente em comparação aos resultados anteriores (60% no treinamento e 52% na validação) entretanto talvez não foi o que esperávamos. Qualquer coisa dê uma olhada no dataset criado:
@Fideliszan Link do notebook no colab. Lá contém o log das execuções realizadas.
https://github.com/HaraHeique/TCC-rede-neural-siamesa/blob/master/TCC_rede_neural_siamesa.ipynb
O dataset tem que conter 72 mil pares de frases sendo 36 mil frases de mesma autoria (com tag igual a 1) e 36 mil frases de autorias distintas (com tag igual a 0). Vai ficar assim: 1,2, Faulkner1, Faulkner2, 1 ............................................................ 11999,12000, Faulkner11999, Faulkner12000, 1
12001,12002, Hami12001,Hami12002, 1 .......................................................... 23999,24000, Hami23999,Hami24000, 1
24001,24002, Roth24001,Roth24002, 1 .......................................................... 35999,36000, Roth35999,Roth36000, 1
36001,36002, Faukner36001,Hami36002, 0 .......................................................... 47999,48000, Faukner47999,Hami48000, 0
48001,48002, Faukner48001,Roth48002, 0 .......................................................... 59999,60000, Faukner59999,Roth60000, 0
60001,60002, Hami60001,Roth60002, 0 .......................................................... 71999,72000, Hami71999,Roth72000, 0