Open foivospar opened 4 years ago
Για αυτο πρέπει να σκεφτείς τι κάνει αυτός ο μηχανισμός προσοχής.
Θες ένα δίκτυο (στην περίπτωση σου ένα feedforward network) να προβλέψει ένα βάρος a_i
για κάθε token στην πρόταση, ώστε να μπορέσεις να πάρεις την τελική αναπαράσταση h=a1 * h1 + a2 * h2 + ...
.
Συνεπώς το attention θα πρεπει να γυρίζει ΜΑΧ_LENGTH βάρη.
Το ενδιαφέρον είναι τι κάνεις για να μη δώσεις βάρη στα padded elements, για το οποίο θα έλεγα να δεις τι κάνει ο κώδικας του attention εδω: https://gist.github.com/cbaziotis/94e53bdd6e4852756e0395560ff38aa4#file-selfattention-py-L43
Ναι κατάλαβα, είναι στην ουσία η διάσταση των αναπαραστάσεων των εισόδων ? Π.χ. για το ερώτημα 3.1 η διάσταση των embeddings. Γιατί το έτρεξα έτσι και δούλεψε.
Στο μηχανισμό προσοχής SelfAttention που μας δίνεται, το όρισμα attention_size που δίνεται κατά τη δημιουργία του μηχανισμού πόσο πρέπει να είναι? Ίσο με το MAX_LENGTH των προτάσεων?