slp-ntua / slp-lab-support-19-20

1 stars 0 forks source link

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

Open DominusTea opened 4 years ago

DominusTea commented 4 years ago

Στο τελευταίο layer δεν θα πρέπει να έχουμε κάποιο softmax layer? Σε εμάς χωρίς αυτό το Loss δεν τείνει στο 0. Επίσης συνολικά η αρχιτεκτονική του δικτύου θα πρέπει να είναι κάτι της μορφής: input->embedding layer -> Sentence representation as average of word embeddings -> (linear layer_1) -> non linear layer eg ReLU -> linear layer_2 (project to output_size dimensions) ;

georgepar commented 4 years ago

Ποιο loss χρησιμοποιείτε; Πολλά loss functions υπολογίζουν το softmax εσωτερικά για λόγους αριθμητικής σταθερότητας. Δείτε τι περιμένει το loss function στο documentation.