Consertar o dataset. - Githubissues

Fideliszan commented 3 years ago

O dataset tem que conter 72 mil pares de frases sendo 36 mil frases de mesma autoria (com tag igual a 1) e 36 mil frases de autorias distintas (com tag igual a 0). Vai ficar assim: 1,2, Faulkner1, Faulkner2, 1 ............................................................ 11999,12000, Faulkner11999, Faulkner12000, 1

12001,12002, Hami12001,Hami12002, 1 .......................................................... 23999,24000, Hami23999,Hami24000, 1

24001,24002, Roth24001,Roth24002, 1 .......................................................... 35999,36000, Roth35999,Roth36000, 1

36001,36002, Faukner36001,Hami36002, 0 .......................................................... 47999,48000, Faukner47999,Hami48000, 0

48001,48002, Faukner48001,Roth48002, 0 .......................................................... 59999,60000, Faukner59999,Roth60000, 0

60001,60002, Hami60001,Roth60002, 0 .......................................................... 71999,72000, Hami71999,Roth72000, 0

HaraHeique commented 3 years ago

Os resultados de acurácia em geral estão dando em média (com 50 epochs):

78% no treinamento
66% a 69% na validação (em torno disto)

72000 registros

70/30 - 7 e 35 max_seq_length

history-graph-70-30-50-7-72000

history-graph-70-30-50-35-72000

90/10 - 7 e 35 max_seq_length

history-graph-90-10-50-7-72000

history-graph-90-10-50-35-72000

10800 registros

70/30 - 7 e 35 max_seq_length

history-graph-70-30-50-7-10800

history-graph-70-30-50-35-10800

90/10 - 7 e 35 max_seq_length

history-graph-90-10-50-7-10800

history-graph-90-10-50-35-10800

O dataset eu criei dois diferentes, onde um foi o combinado de 72000 linhas (36K de similaridade 1 e 36K similaridade 0). Mas também criei outro dataset que possui 10800 linhas (36K de similaridade 1 e 72K de similaridade 0), onde este segundo contem todas os registros de comparação entre os 3 autores, dado que o de 72K linhas não é possível utilizar todos os registros.

Lembrando que todos os testes foram utilizando o loss mse e otimizador Adam padrão do tensorflow. Conclui-se que realmente melhorou consideravelmente em comparação aos resultados anteriores (60% no treinamento e 52% na validação) entretanto talvez não foi o que esperávamos. Qualquer coisa dê uma olhada no dataset criado:

HaraHeique commented 3 years ago

@Fideliszan Link do notebook no colab. Lá contém o log das execuções realizadas.

https://github.com/HaraHeique/TCC-rede-neural-siamesa/blob/master/TCC_rede_neural_siamesa.ipynb

HaraHeique / TCC-rede-neural-siamesa

Consertar o dataset. #18

72000 registros

70/30 - 7 e 35 max_seq_length

90/10 - 7 e 35 max_seq_length

10800 registros

70/30 - 7 e 35 max_seq_length

90/10 - 7 e 35 max_seq_length