Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου

Στο τελευταίο layer δεν θα πρέπει να έχουμε κάποιο softmax layer? Σε εμάς χωρίς αυτό το Loss δεν τείνει στο 0. Επίσης συνολικά η αρχιτεκτονική του δικτύου θα πρέπει να είναι κάτι της μορφής: input->embedding layer -> Sentence representation as average of word embeddings -> (linear layer_1) -> non linear layer eg ReLU -> linear layer_2 (project to output_size dimensions) ;

slp-ntua / slp-lab-support-19-20

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19